统计排名好的页面特点，逆推搜索引擎算法靠谱吗

Backlinko发布的2016年Google排名统计、SEMRush的2017年Google排名因素统计。但有一个问题一直没仔细说。所有排名因素统计调查都一样，严格说，从搜索结果统计分析出来的排名因素只能说是与排名有相关性，不一定有因果性。换句话说，观察、统计得到的排名因素并不一定是真的搜索引擎使用中的排名因素。

简单说，这些排名因素统计的过程是这样：搜索典型关键词（总数需要达到一定量，比如1万个关键词），下载搜索结果页面（比如前2页或前10页），使用各种工具记录、查询页面的特征（也就是排名因素），分析排名好的页面有哪些共同特征，或者有哪些排名不好的页面所没有的特征，使用统计方法如皮尔森相关系数（Pearson）或斯皮尔曼相关系数（Spearman）计算出排名与排名因素之间的相关系数。

所以，这种统计的基础是，“排名好”与“页面特征”同时出现，也就是这两者有相关性，经常相关系数还挺高。但有相关性并不必然说明有因果性。最浅显的比喻是，公鸡打鸣和天亮经常一起出现，是有很高相关性的，而且是公鸡打鸣后天亮，但公鸡打鸣不是天亮的原因。

排名与所谓的排名因素之间也是如此。最明显的，几乎所有排名因素统计都表明，Facebook和Twitter等社交媒体上的点赞数、分享数、转发数等是与Google排名相关性最高的因素，或者说两者同时出现概率很高，但社交媒体互动数据高是导致排名好的原因吗？或者说，是排名因素吗？一直以来，Google的几位员工都明确否认社交媒体数据是排名算法中的因素。

Google员工的话不一定都可信，但社交媒体数据不是排名因素，基本上是可以相信的。两个原因：

Google拿不到社交媒体上的完整数据。目前Google和几个主要的社交媒体都没有协议（以前和twitter有过），不能后台拿数据，只能靠自己抓。需要登录才能看到的信息自然抓不了，即使是不需要登录的，由于信息量太大，Google抓取的比例我记得以前看到过统计，还不到10%。
社交媒体随时可以禁止Google抓页面。这个就更可怕了。不能掌握在自己手里的数据，用来做重要排名因素，一旦社交媒体们翻脸，Google搜索结果质量可能直线下降。把自己的质量控制权放在别人手里，大公司做不出这种事。

之所以社交媒体数据好的页面同时也排名好，可能的原因包括：

社交媒体数据确实是排名因素（不是必然，但不排除这种可能）
搜索排名好导致社交媒体分享数据好（因果关系是反过来的）
搜索排名和社交媒体分享是另一个或一些共同因素造成的（比如页面浏览量、外链数之类）
社交媒体互动间接造成搜索排名好
巧合

到底是哪一种，或是其它原因，我们目前无法知道。

再比如，一个相反的例子。Searchmetrics的统计表明，.com域名与排名是负相关，或者说，.com域名不利于排名。这就有点费解了，一般来说.com域名都是首选啊。这很可能是被维基百科强大的排名能力干扰了，大部分查询词都会有一两个维基百科的页面排在前面，而它是.org域名。

再举一个中性的例子。统计表明，排名好的页面文字长度越来越长，那么文字长度是排名因素吗？也许是，也许不是，也许现在所有页面平均长度都变长了呢。

既然所谓的排名因素和排名之间不一定有因果关系，有些甚至明确没有因果关系，那我们忙活什么呢？那些公司费劲统计它干什么呢？

首先，不一定有因果关系，但也不一定就没有因果关系。搜索引擎不说，我们就不能确定而已。各个统计调查中那么多因素，总会有一些确实是搜索引擎使用中的排名因素，碰也能碰上几个。

更重要的是，两者的强相关度往往是有内在原因的，虽然我们不知道确切关系。排名因素统计至少告诉我们，排名好的页面都有哪些特征。如果SEO们把一个页面优化得和排名好的页面一个样，那么很大概率这个页面也能获得好排名，虽然我们也无法明确知道到底优化的那一部分起了作用，起了多大作用，到底哪些因素起了作用也无所谓。

最后提一句，处理相关性、而非因果性的关系，正是人工智能的强项。

原文：《搜索算法排名因素统计靠谱吗？》

转载请注明：思享SEO博客 » 统计排名好的页面特点，逆推搜索引擎算法靠谱吗

统计排名好的页面特点，逆推搜索引擎算法靠谱吗

推荐阅读

百度惊雷算法是根据什么来判断有没有作弊的？

内容质量相关的算法有哪些，具体针对什么？

关注公众号才可下载会中清风算法吗

与本文相关的文章