网站“抓取诊断”失败的原因!

自媒体 投稿&转载 1668浏览

对于SEO站长,经常会使用百度站长平台的抓取诊断工具,主要作用是以百度蜘蛛的角度去分析网站的内容,判断百度蜘蛛的抓取情况,解决了百度蜘蛛与seo站长们眼中内容是否一致的问题。如果经常出现抓取失败,那会大大的影响网站的正常收录,下面笔者来分析一下百度抓取诊断失败的原因有哪些。

百度抓取诊断

百度站长工具抓取诊断失败的原因有哪些

1. 301或302重定向设置错误

301重定向是指百度蜘蛛访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。

2. 网站访问速度

很多SEO站长表示,在本地测试访问时候,返回的HTTP状态码是200,但是抓取诊断就一直显示抓取中,没有反馈任何结果,这是由于服务器的线路不同,百度蜘蛛抓取的速度可能发生延时,就会产生明明可以正常访问,却出现抓取失败的情况。一般遇到这种情况需要定期检测服务器各地访问速度,优化网站的打开访问速度。

3. robots.txt封禁

在抓取诊断工具中如果返回的抓取失败,请确认你是否对该网站设置了robots.txt封禁,阻止百度蜘蛛抓取网站的某些内容,如果你未使用robots.txt文件屏蔽百度,请点击旁边的报错链接,百度会立即更新你网站的robots信息;如果是你的误操作导致了robots.txt封禁,请及时修改robots文件,避免造成你的网站在百度收录量影响。

4. DNS错误问题

DNS错误是指由于服务器停止运行或DNS到你网域的路由存在问题,导致百度蜘蛛无法与DNS服务器通信。对于持续的或反复出现的DNS错误,请与你的DNS提供商联系处理。通常情况下,你的DNS提供商即为网站服务器托管服务提供商,配置你的服务器,使其能够以404或500等HTTP错误代码对不存在的主机名作出响应。

5. 404错误

一般情况下,当百度蜘蛛访问到不存在的网页(因为你删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码),404错误也会导致抓取失败。

6. 访问遭拒绝

一般情况下,百度会通过跟踪网页间的链接来查找内容。百度蜘蛛必须能够访问某个网页才能抓取该网页。如果你意外地看到了“访问遭拒”的错误,可能是由于以下几种原因导致的:

(1)百度spider无法访问您网站上的网址,因为你网站上的所有或部分内容要求用户登录后才能查看。

(2)你的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度蜘蛛访问你的网站。

总结:百度站长工具抓取诊断失败的原因还有很多,以上笔者分析了一些常见的,提供给大家参考,需要逐一排除找出原因。

推荐阅读

url是什么意思,搜索引擎怎么抓取网页的

url,即统一资源定位符,通过对url的分析,我们可以更好地理解页面抓取过程。今天,小小课堂SEO学网带来的是《页面抓取过程简述》。希望本次的SEO技术培训对大家有所帮助。 一、url是什么意思? URL,英文全称为“uniform resource......

宝塔面板后台怎么设置SSL加密访问

由于早期并未默认开启https访问,因此没有相关风险提示。现在面板默认启用了https加密访问,以提高安全性。...

罕见!阿里云2H2G3M仅需99元~新老用户同享

众所周知,阿里云的促销活动一般都是新用户专属,老用户的折扣一般都非常有限。今年金秋大促推出了一场史无前例的新老用户共享活动。 2核2G 3M固定带宽,流量无限。新老都可以分享。新购买和续订价格相同。对于中小型站长来说,确实是一个超级福利。你在等什么?......