网站日志中AhrefsBot蜘蛛爬虫是什么,怎么禁止

SEO问答录 思享 1003浏览

AhrefsBot蜘蛛是什么

AhrefsBot 是一个 Web 爬虫,为 Ahrefs 在线营销工具集的 12 万亿链接数据库提供支持。它不断抓取网络以使用新链接填充我们的数据库并检查以前找到的数据的状态,以便为我们的用户提供最全面和最新的数据。

来自网络的 Ahrefs Bot 收集的链接数据被全球数千名数字营销人员用于规划,执行和监控他们的在线营销活动。 这些数据对 SEO 社区具有巨大价值,因为它可以帮助营销专业人员更好地理解世界上最大的搜索引擎的基本算法,以便他们可以相应地优化网站。我们的爬虫每隔 24 小时访问超过 60 亿个网页,并每 15-30 分钟更新一次 Ahrefs 的索引。 根据最近一项关于“好机器人”的第三方研究,AhrefsBot 是仅次于 Googlebot 的第二大活跃爬虫。

AhrefsBot

以上参考《AhrefsBot 蜘蛛爬虫是什么?

AhrefsBot有什么用

从上面我们可以获知,对于国内来说这其实就是一个垃圾蜘蛛,并且抓取量巨大会给我们的服务器造成额外的压力。理应禁用。

如何禁止 AhrefsBot?

robots.txt禁用

AhrefsBot 遵守网络规范,如要禁止 AhrefsBot,最快捷的方法是打开您的 robots.txt 加入

user-agent: AhrefsBot

disallow: /

直接封AhrefsBot ip段

被AhrefsBot蜘蛛爬取的站服务器用的阿里云,阿里云后台有安全组可以使用,所以直接屏蔽AhrefsBot的IP段,是最简单粗暴,效果立竿见影的方法。

进入阿里云后台,进入你的服务器列表,点击服务器的安全组,配置安全组规则。

54.36.148.0/24
54.36.149.0/24
54.36.150.0/24

195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24

使用apache或者nginx来封禁

这个方法参考之前的文章:WordPress网站阻止特定机器人和爬虫访问的方法

如果使用的nginx的话,也可以单独添加下面这串代码到你虚拟机配置文件来实现屏蔽AhrefsBot

if ($http_user_agent ~* AhrefsBot) {
return 403;
}

以上参考《垃圾蜘蛛AhrefsBot封禁方法 附AhrefsBot爬虫IP列表

推荐阅读

内网能上网但拒绝外网访问,蜘蛛能抓取到我的网站吗

不能!! 相关SEO术语解释: 访问量: 访问量即Page View,简称pv。 即页面浏览量,用户每 1 次对网站中的每个网页访问均被记录 1 次。用户对同一页面的多次访问,访问量累计。 百度蜘蛛: 百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用......

为什么蜘蛛经常抓取,但快照却长时间不更新?

一个重要网页的快照往往会在搜索引擎数据库中保存有多份网页快照,这些快照的抓取时间并不相同。在一些极特殊情况下,搜索引擎系统可能会选择不同于当前搜索结果中的快照版本,导致出现快照时间倒退的情况。这对网站在搜索引擎中的表现无任何影响,也并不代表搜索引擎对......

如果页面中有很多URL,蜘蛛会选择性地抓取它们吗?

网站底部放了很多链接,为了让网站增加内链提高抓取,想问一下如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?...