Robots 是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面,不想公开展示的页面,Robots 的作用已经不在局限于网页的隐私了,如今已经是作为学习 SEO 的一个最基础的范畴,能够有效提高网站的健康度、纯净度,降低网站垃圾内容收录
robots格式
User-agent:
是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 * ,
记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)
Disallow:
是禁止搜索引擎抓取的路径。注意: / 表示根目录 (代表网站所有目录)。Disallow 禁止搜索引擎把我们的网页放出来,就是我们不允许搜索引擎收录,请记住是不允许搜索引擎收录,并不代表他不能爬取了。这是两个概念,他还是能爬的,他不是命令,他只是协议
Allow:
是允许的意思,但需要注意: 他的使用一般都是结合 Disallow 他不能单独出现,意思是禁止爬取那个内容,加上 Allow 后意思是,除了可以爬取这个外其余的都禁止!
robots.txt文件的作用
上面我们了解了robots协议。大概就能知道,搜索引擎访问会首先访问网站的robots.txt文件来获取抓取的内容,以及禁止抓取的内容。我们再平常交流中,很多站长都是想知道没有robots.txt文件对SEO有什么影响。下面就说说我的看法:
没有robots.txt的影响:
1、蜘蛛依然会抓取robots.txt,并返回404。这一点影响其实不大,但是绝对不能说是正面的影响
2、蜘蛛默认抓取所有内容。这一点影响大不大还是取决于网站的内容。如果存在很多低质量的内容,建议还是robots进行限制比较好
综上,还是建议站长加上,毕竟不是什么难事,至于怎么写,可以参考:
转载请注明:思享SEO博客 » Robots协议是什么,robots.txt文件有什么用