搜索引擎对网页的排名一直是站长关注的问题,搜索引擎的投票原则一直是网页排名的重要因素。从之前的外链投票到现在的用户投票,百度在改变百度算法时总是关注投票排名的焦点。今天,我不能闲着,根据百度搜索研发部对网页搜索排名模型进行了简要讨论。
假设蜘蛛数据库系统中有n个网页和m个特征(页面质量、页面加载速度、页面内容丰富度、页面超链、文本相关性等),现在对n个网页的m个特征有不同的评分
第一,如何根据这些特点选择最适合放在第一位的网页?
百度搜索研发部的观点如下:
1.设计算法时,要避免赢家通吃造成的信息丢失。
什么是赢家通吃?
很简单,比如美国总统选举制度,每个州根据自己的人口获得相应的州票。州里的人选举总统候选人,在某个州获得最多票的候选人,获得这个州所有的州票,然后统计所有候选人的州票,获得最多州票的候选人。比如A州只有500人,B州有400人,那么对应的州票是500和400人。如果一个候选人小布在A州以251:249获胜,另一个候选人老奥在B州以400:0获胜,这样老奥就在全国范围内获得了649投票。
显然,如果这种排序方法是在搜索引擎算法中,问题很大。为了排序结果(最相关的网页),找到了一个特征A(页面质量),如果决定结果的不是特征A,而是特征A推导的特征B(页面加载速度),那么在特征A推导到特征B的过程中,除了页面加载速度,其他页面质量信息就会丢失。
2.不要因为某些特征特别好就把某个网页排在第一位,也不要因为某些特征特别差就抛弃某个网页。
这也很简单,或者选举,如果有四个候选人,有1000个候选人,包括候选人A、B、C是一个派系,非常受尊敬,大约700人支持他们,D只有300人支持他,但在选举投票过程中由于ABC很好,700人支持人们不知道如何选择,结果分散,每人只有200多票,D虽然差得到300票,但胜利。
因此,在对网页进行排序的过程中,网页也可能出现各种特征都很好、投票相对平均的情况,也可能是由于质量特征,投票集中,导致第三条。
3.最适合放在第一位的网页不一定是每个特征中最好的,而是能够兼顾所有特征,综合表现最好的。
这就是搜索引擎需要做的——为用户提供最满足需求的页面。
4.搜索引擎用户对搜索结果的点击可视为对搜索结果的投票。
上述投票只讨论了选择结果的情况,搜索引擎面临的问题是选择多个网页。
N个网页的顺序如何根据这些特征的投票来确定?
关于多网页投票排名,百度搜索研发部认为有一个不可能的民主理论,即合理的民主应满足三个条件:
1.如果选民认为A比B好,最终结果也应该是A比B好。
2.没有独裁者。也就是说,没有这样的人,不管别人怎么排序,最终结果的排名都和这个人的排名一致。
3.无关因素的独立性。也就是说,第一次投票完成后,A排在B前面,现在进行第二次投票。如果每个人都没有改变投票中A和B的相对顺序,最终结果也应该在B前面。
你可以想想:如果一种投票方式满足1和3的条件,它将不可避免地不满足2,也就是说,必须有一个独裁者。根据不可能的民主理论和搜索引擎算法,搜索引擎很难给出合理的网页排名,但搜索引擎算法和投票也不同,有两个角度可以解决。
1.认为条件3太强,需要弱化。
2.也许在网页排名问题上,确实有这样一个独裁特征,从目前的角度来看,最合适的应该是用户满意度,如果你必须找到一个独裁者,那么根据用户满意度排序网页是最合理的网页排名。
三、从选举投票看外链
由于网页排名是选举制度,在构建外链时要注意:
1.进入百度黑名单的,K网站上的外链被剥夺了政治权益,投什么票?
2.外链所在站本身质量低下,这样的是政治地位低下的,这样的投票意义不大。
3.无选举权的。也就是外链不在收录范围内的,这类外链你做着也就是引流增加曝光,与投票无关,与搜索引擎网页排序无关。
4.与选举无关。什么与选举无关?首先,这个网站的内容不相关。第二,这个网站不是真正选择你的,购买链接就是其中之一。这也是百度常说的真诚推荐。
因此,外部链本身的建设也是选举和选举的规则。我们不仅要确保投票的合理性,而且要注意投票的有效性。百度外部链查询工具的原因是让网站管理员更好地参与选举。
四、用户从选举投票中投票
目前,用户体验越来越受到企业和网站管理员的关注。百度LEE还提到,用户投票将对搜索排名产生更大的影响。在上海周四举行的搜索引擎营销会议上,百度LEE团队的王涛提到了超链接投票向用户投票的转变,强调了百度排名中用户直接参数和用户体验的影响。
王淘说到:Web2.0时代内容创造的主体渐渐变为用户自身,搜索算法也逐步扩展为多重投票机制。主要针对百度自身产品和一些带有用户直接参与功能的网站,像百度知道的评论、赞,百度文库的评论、打分、收藏、下载,百度分享的分享功能等都属于是用户直接参与的功能。
因此,用户投票是我们现阶段必须关注的问题。我们不仅需要通过社交插件获得用户投票,还需要通过百度产品和用户点击获得用户投票。之后,点击IP量、平均浏览时间、跳出率、用户共享和网页点击间隔对网页排名起着重要作用。