来自百度搜索的流量突然间降了50%以上,且是持续性的,即已经连续四至五天流量没有明显涨幅变化。如下图所示:
如果出现上述现象,建议大家从运维角度、页面特征,以及相关因素来判断原因。
运维篇
1、CDN
2、Robots
站长应该对robots都不陌生,但为什么还要提呢?有这样一种情况:站点需要更新robots文件,对站内部分内容禁止或放开抓取。但由于操作后没有检查是否生效,站长会默认为已经生效。同时还有一个生效周期的问题,那么站点需要在百度站长平台提供的robots检测工具中做一个抓取测试来验证是否生效。
3、UA/IP
UA封禁一般不会是站点主观错误操作,往往是意外情况,站点在程序中过滤误操作UA封禁,而通常却不知道自己封禁了蜘蛛。只有在逐步的排查才会发现这种概率很小的问题。所以在流量异常中我们在运维篇中把这项列进去,让站点注意这些个细节。
那么当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。禁止所有来自百度的抓取: User-agent: Baiduspider Disallow: /
IP封禁往往是遇到CC攻击的时候不知道哪些是真百度蜘蛛和仿冒百度蜘蛛而封禁了蜘蛛IP,这里我们建议通过DNS反查方式让站点了解哪些是真实蜘蛛,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
B、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
C、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。更多内容请访问:http://zhanzhang.baidu.com/college/articleinfo?id=34
4、安全/管理不善
安全问题在站长平台能观察到的绝大多数属于管理问题,站点被黑客钻了漏洞而受到了惩罚等,且惩罚力度与站点漏洞的存在时间成正比。
A、域名泛解析
近几个月域名泛解析是一个非常经典的案例,很多网站由于安全意识薄弱、密码简单被黑客钻了空子,解析出了大量非本站内容的低质页面,导致百度搜索引擎对整站采取了临时措施,使得站点流量掉了很多甚至清零。
B、网站被黑
网站被黑跟泛解析也有相似之处,网站内有大量的垃圾页面都是黑客创造出来的,导致受到惩罚,给站点带来致命的打击。
C、网页被挂马
其实这也是被黑的一种,但比被黑释放垃圾页面更为隐蔽,这类案例主要出现在企业网站或者是一些比较小的网站上,黑客直接在页面上放置展现广告代码,而且会判断来访者是普通用户还是蜘蛛,然后区别对待;或者是仅给某一个地区的用户访问挂马页面,给蜘蛛和其他大部分所在地展现正常页面等,这些其实都是非常隐蔽的行为,没有用户举报站点也很难发现,但百度搜索引擎无法容忍这样的页面出现在搜索结果里,自然这些站点会受到惩罚。
D、UGC站点被SPAMMER群发
最后说UGC站点,所有以用户贡献内容的站点在审核机制上一定要加强防范,目前平台能够接到的不少案例都是UGC站点存在监管不利,导致有大量的垃圾内容在线上,当垃圾内容与正常内容的比例达到一定阈值,就有可能整站被百度搜索引擎惩罚。
特征页分析
1、分析流程图
2、查找特征页面
首先说什么叫特征页面,即流量下滑比较多的页面,这类页面又是结构化页面,内容不同页面所抢的关键词不同,但页面框架结构是统一的。比如关键词“北京旅游、上海旅游、天津旅游”对应A类页面,那么在此类关键词消失后,这个A类页面也没有流量,于是A类页面就是我们说的特征页面,要看看A类页面发生过哪些变化。首先找出昔日的流量对比,过去一段时间与现状的差距。其次回忆一下近期此类页面有怎样的改动,这些改动是否存在运维篇的问题,那么观察几日后给出流量损失范围。
3、分析异常特征
从流量损失范围大体可以判定两种情况:
A、排名无,流量无
上面所讲的关键词排名无,网站流量无——很有可能是受到了惩罚,可能是局部惩罚也可能是站点整体被惩罚。具体原因可以参见之前推出的石榴算法及绿萝2.0算法,当然大量算法我们没有公布出来,各位可以参考《百度网页搜索质量白皮书》,观察站点是否存在此类问题。参考链接:
B、部分排名无,流量损失较大
例如,特征页面A本对应多个关键词,有些关键词下已找不到A,而有些仍然可以找到,基本可以说明该页面并不在惩罚范围内,可能是百度算法在做调整。而如果所有关键词下都难以找到A页面,那极有可能是被惩罚了。
相关因素:外链爆增
1、首页、频道页、重点页面被恶意投票
A、此类事件主要是在被链接URL被莫名的站点大量投票,如果遇到此种现象一定要注意,很有可能是恶意投票行为,目的是通过大量垃圾站点对站点的投票,降低站点在百度搜索引擎中的评价。
B、此类问题的措施只能是站点加大拒绝力度,从而屏蔽掉无意义的投票链接
2、用户创建页面,垃圾个人页,内容页
A、UGC站点尤其要关注这点,之前谈过要加大审核及处理力度,杜绝让用户创建垃圾内容、个人页面。不良分子为了排名的效果更好,会再对这些垃圾页进行投票。这里特别要提醒的是,如果站点审核力度及时就不会发生此类事情,只有站点内容长期处于无人管理的状态时才会出现如此问题。
B、此类问题的措施只能是站点加大审核力度,关闭垃圾页面,同时拒绝这些垃圾投票的域名及站点
3、拼接搜索结果页漏洞
拼接搜索结果页是通过地址栏参数变化而动态创建出的页面,例如下图这些页面,TITLE中往往包含了过多的垃圾词,提交给搜索引擎后,为了排名效果再对这些页面进行投票而产生了过量的外链投票。
此类页面不良分子就是钻了拼接搜索结果页的title、description可以显示拼接代码中的垃圾内容。理论上百度搜索引擎会拒绝收录这样的页面,但毕竟站点数量巨大还会出现遗漏。所以如果想解决此类问题,可以在百度站长平台反馈中心反馈下述内容:
- 举例已收录被链接页面
- 给出搜索此类页面关键词的链接
- 描述页面收录量及外链量(给出外链分析中的数据)
4、如何预防产生拼接搜索结果页
上面也说了,拼接搜索结果页是不良分子钻了可以控制页面的title、description内容而制造了大量的页面,从而进行投票的行为。那么如果在拼接搜索结果页中禁止这些无效参数展示在Title和Description中自然就没有这个漏洞,下图以携程为例,拼接页面中的title和description都是固定内容,无论页面参数怎么变化这些都不会改变。
转载请注明:思享SEO博客 » 站点流量异常追查文档