百度是全球最大的中文搜索引擎,对中文网页的搜索技术在某种程度上领先于Google,百度在某些方面与Google有相同或相似之处外,它还有以下特点:
1、较重视第一次收录印象。
网站给百度的第一印象比较重要,相对Google而言,百度搜索引擎的人为参与度较高。也就是说,在某些层面上,可能是由人来决定是否收录网页而,而不是由机器来决定的。所以,网站在登录百度搜索引擎之前最好能把内容做得丰富点,原创内容尽量多一点,网页的关键词与内容的相关度要高一点,这样才能给百度留下较好的初次印象。
2、对网页的更新较敏感。
百度对网页的更新相对Google而言更加敏感,可能这与百度的本土性格有关。百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天到一月之间。所以,在百度的搜索结果中基本上都标明了收录时间;
3、较重视首页。
百度对首页的重视程度要比Google高得多,这与上面提到的“较重视第一次收录印象”是一脉相承的。百度在显示搜索结果的时候也常常把网站首页显示出来,而并非是具体到某个内容页
(当它认为不够重要的时候)。相对而言,它的用户体验就打了折扣,但增加了“百度快照”的用户量。
4、较重视绝对地址的链接。
百度在收录网页时,比较重视绝对地址的收录,百度提供的网页快照功能也没有解析相对地址的绝对路径,不知这是百度技术的疏忽还是它偏好的一大体现呢?
5、较重视收录日期。
百度对网页的收录日期非常看重,也是它搜索结果排名的参考点,被收录得越早,排名就会越高,有时甚至是不考虑相关性就把它认为是比较重要的内容而放在首位,可点击进入之后才发现是早已过时的信息或本就是垃圾信息,这也是百度需要改进的一个方面。百度使用的技术:
(1)一种互联网上镜像和准镜像网站的识别方法。这个方法既解决了搜索引擎对雷同信息的重复获取,也节省了网络资源和本地资源,提高了系统服务的质量以及效率;
(2)一种基于词汇的计算机索引和检索方法。该方法对一段连续性的文字信息,在经过词汇分析处理之后,通过添加隐形词汇的手段来实现对基于词汇索引和检索系统的检索质量的提升,而使用户获得更加准确的检索结果;
(3)一种使用快照的方式实现对网上信息进行记录和分析的方法。该方法是通过对互联网上的一个特定信息进行多次的快照方式,能将信息当时的状态进行保留,而且还能通过对一系列的快照信息进行分析,从而得到有效的数据,以方便得到网上信息的变动情况。
参考资料:http://group.dp100.net