Robots协议是什么,robots.txt文件有什么用

自媒体 思享 2141浏览

Robots 是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面,不想公开展示的页面,Robots 的作用已经不在局限于网页的隐私了,如今已经是作为学习 SEO 的一个最基础的范畴,能够有效提高网站的健康度、纯净度,降低网站垃圾内容收录

Robots协议是什么,Robots.txt的作用!

robots格式

User-agent:

是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 * ,

记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)

Disallow:

是禁止搜索引擎抓取的路径。注意: / 表示根目录 (代表网站所有目录)。Disallow 禁止搜索引擎把我们的网页放出来,就是我们不允许搜索引擎收录,请记住是不允许搜索引擎收录,并不代表他不能爬取了。这是两个概念,他还是能爬的,他不是命令,他只是协议

Allow:

是允许的意思,但需要注意: 他的使用一般都是结合 Disallow 他不能单独出现,意思是禁止爬取那个内容,加上 Allow 后意思是,除了可以爬取这个外其余的都禁止!

robots.txt文件的作用

上面我们了解了robots协议。大概就能知道,搜索引擎访问会首先访问网站的robots.txt文件来获取抓取的内容,以及禁止抓取的内容。我们再平常交流中,很多站长都是想知道没有robots.txt文件对SEO有什么影响。下面就说说我的看法:

没有robots.txt的影响:

1、蜘蛛依然会抓取robots.txt,并返回404。这一点影响其实不大,但是绝对不能说是正面的影响

2、蜘蛛默认抓取所有内容。这一点影响大不大还是取决于网站的内容。如果存在很多低质量的内容,建议还是robots进行限制比较好

综上,还是建议站长加上,毕竟不是什么难事,至于怎么写,可以参考:

网站robots应该怎么写?

你真的完全懂了robots吗?

推荐阅读

robots.txt文件应该放在网站哪里?

robots.txt文件应该放置在网站根目录下。比如说,当spider访问一个网站(例如http://www.chinaz.com)时,首先会检查该网站中是否存在http://www.chinaz.com/robots.txt这个文件,如果Spide......

robots禁掉动态链接,问号前面的静态URL抓取吗?

不会的,你原来的页面还在,肯定会抓。...

网站禁止收录所有动态页面,该怎么设置?

我们知道动态页面都有一个共同的特征,就是在链接里会带有"?"这个问号的符号,因此我们可以在robots.txt文件里写入如下这样的规则: User-agent: * Disallow: /*?*...