AhrefsBot蜘蛛是什么
AhrefsBot 是一个 Web 爬虫,为 Ahrefs 在线营销工具集的 12 万亿链接数据库提供支持。它不断抓取网络以使用新链接填充我们的数据库并检查以前找到的数据的状态,以便为我们的用户提供最全面和最新的数据。
来自网络的 Ahrefs Bot 收集的链接数据被全球数千名数字营销人员用于规划,执行和监控他们的在线营销活动。 这些数据对 SEO 社区具有巨大价值,因为它可以帮助营销专业人员更好地理解世界上最大的搜索引擎的基本算法,以便他们可以相应地优化网站。我们的爬虫每隔 24 小时访问超过 60 亿个网页,并每 15-30 分钟更新一次 Ahrefs 的索引。 根据最近一项关于“好机器人”的第三方研究,AhrefsBot 是仅次于 Googlebot 的第二大活跃爬虫。
以上参考《AhrefsBot 蜘蛛爬虫是什么?》
AhrefsBot有什么用
从上面我们可以获知,对于国内来说这其实就是一个垃圾蜘蛛,并且抓取量巨大会给我们的服务器造成额外的压力。理应禁用。
如何禁止 AhrefsBot?
robots.txt禁用
AhrefsBot 遵守网络规范,如要禁止 AhrefsBot,最快捷的方法是打开您的 robots.txt 加入
user-agent: AhrefsBot
disallow: /
直接封AhrefsBot ip段
被AhrefsBot蜘蛛爬取的站服务器用的阿里云,阿里云后台有安全组可以使用,所以直接屏蔽AhrefsBot的IP段,是最简单粗暴,效果立竿见影的方法。
进入阿里云后台,进入你的服务器列表,点击服务器的安全组,配置安全组规则。
54.36.148.0/24 54.36.149.0/24 54.36.150.0/24 195.154.122.0/24 195.154.123.0/24 195.154.126.0/24 195.154.127.0/24
使用apache或者nginx来封禁
这个方法参考之前的文章:WordPress网站阻止特定机器人和爬虫访问的方法
如果使用的nginx的话,也可以单独添加下面这串代码到你虚拟机配置文件来实现屏蔽AhrefsBot
if ($http_user_agent ~* AhrefsBot) {
return 403;
}
以上参考《垃圾蜘蛛AhrefsBot封禁方法 附AhrefsBot爬虫IP列表》
转载请注明:思享SEO博客 » 网站日志中AhrefsBot蜘蛛爬虫是什么,怎么禁止