
所谓的排序技术,我们可以简单的理解为曝光率,谁出现的次数最多,谁排在前面。要谈到排序技术,就不得不说Google的PageRank,而提到PageRank,则我们需要先来了解一下一种称为HillTop的排序算法。
PageRank技术:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
PageRank的思想,链接的重要度整体加重了网站的权重,而网站的权重又反过来影响内部链接的排名。而HillTop算法(也被称为“专家系统”,由Krishna Bharat和George A. Mihaila提出),则是以Dan Thiesw为首的TSPR(Topic-Sensitive-PageRank:主题性页面级别技术)理论。相比PageRank算法,HillTop更强调了内容的相关性,也就是我们常说的“粘性”,“黏度”,而非网站权重,这样避免了可能转贴的权重较高的站点(比如门户站点)比原创作者站点排名还要靠前的问题。那么,到底
什么是Hilltop算法
Bharat提出:在利用“页面等级”来寻找“权威”网页时,不应单纯依赖于值的大小来定夺,而应将重点放在它与查询主题的相关性上;即不但需要考虑网页的页面等级,还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,那些来自于“相关主题”的文档的链接就更有意义了 (Bharat称这种“相关主题”文档为“专家文档”),一个网页的所有外部“专家文档”链接构成了该网页的“权威性值”。Hilltop算法的意义在于:相同主题网站之间的链接应比非相关网站的链接具有更高的价值。
其实GOOLE早在几年前已经开始混合使用HiilTop和PageRank算法共同确定搜索结果排名了,通过HiilTop的方法,计算来自描述相同主题的相关文档的链接对于搜索者的价值会更大(即相同主题网站之间的链接比不相关网站的链接价值要更大),正是由于HiilTop的影响,这也是我们看到即使各项指标(被收录链接数量,反向链接,访问量等)都非常不错的门户类网站PR很难达到7以上,而专业性的站点却非常容易就达到7,甚至有一大批的都达到了9(注:这里的PR指的是Google综合结果通过Google 工具条显示的结果,而并非上面的PageRank值)。
Hilltop算法的不足
●Hilltop的前提是每个专家文件都是完全公正的,且无欺骗和人工操纵成分。专家文件的一个小小污点就可以对排名产生极大的负面影响。
●运行Hilltop算法需要大量的计算机处理能力,像Google的成千上万台服务器集群可以轻松的实现,但是对于一般的企业级用户,服务器就未必具有这样的处理能力。
排名所采用的相关技术
●词干技术(stemming)
Google等各搜索引擎中,目前都已经采用了词干技术(stemming) 。最早的搜索引擎,如果搜索一个单数查询条件如”live”,则搜索结果中不会出现如”lives”,”living”这样的关键词变化形式,反之亦然。对于搜索引擎的用户来说,这种特性是一件好事情,因为搜索提供的结果更多了,但站在搜索引擎商业用户来说,那就意味着需要多购买一些关键词,这个也体现了技术的进步在商业中的价值。
●拼写纠错
拼写检查和上面的词干技术一样,也已经被应用于搜索结果中。例如,当输入查询条件为”Search Engine Optimisation”后,以往Google只会提示你是否是要找”Search Engine Optimization”,但显示的还是符合”Optimisation”的搜索结果。不过现在则能看到”Optimization”的搜索结果。
这两项处理其实都是在分词阶段完成的。
排名的商业价值
排名在商业中的价值,在互联网蓬勃发展的今天,已经得到了充分的体现。2003年Google大规模调整算法的时候就引来了种种传言和猜测 :
众多猜测中,”Google意图施压使商业站点使用Adwords广告服务”显然占了上风。许多搜索引擎优化分析家都认为:Google通过一个保密的过滤系统”黑名单”来对商业网站进行筛选,从而达到上述目的。虽然这都紧紧是一些猜测,但是这样的传言和猜测,恰恰反应了排名的重要商业价值。