爬虫协议Robots.txt是在网站上找到的第一个文件搜索蜘蛛。它告诉搜索引擎可以抓取哪些页面以及哪些页面无法抓取。
当我们在我们的网站上有错误页面时,或者某些页面不希望蜘蛛抓取时,合理配置的机器人协议可以使蜘蛛更有效,更快速地抓取需要抓取的内容。当搜索引擎蜘蛛进入网站时,首先要确定网站根目录目录下是否有robots.txt文件。如果存在,则根据文件的规范对内容进行爬网;如果该文件不存在,则根据默认规则对网站中的所有页面进行爬网。 。因此,本文介绍了一些机器人的语法和常见示例。
网站设置robots.txt的好处:禁止搜索引擎包含页面的一部分;引导蜘蛛爬行站点地图;可以在一定程度上保护网站安全;节省流量等。
Robots基本语法:
1、定义搜索引擎:User-agent。
2、Disallow 禁止爬取。
3、Allow 允许。默认情况下,都是允许的。
例如:禁止admin文件夹下的所有文件,除了.html的网页。如果用Disallow一个一个的禁止,太浪费时间了。
此时用Allow就解决这个问题:
4、$ 结束符。
例:允许所有的以.html结尾的文件。不管前面有多长的URL,只要以.html结尾都允许
5、* 通配符符号0或多个任意字符。
例:屏蔽所有的动态URL
6、Sitemap 声明网站地图。
7、#: 注释符。
8、版本号
注:
常用Robots.txt 文件举例
例1、禁止所有搜索引擎访问网站的任何部分
例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。
例3、禁止某个搜索引擎抓取网站上的所有图片
User-agent: * Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$
本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/45043.html
如有侵犯您的合法权益请发邮件951076433@qq.com联系删除