网站优化robotstxt的原理与设置。

做过网站优化的朋友都知道,搜索引擎蜘蛛爬行抓取网站时首先会去访问根目录下的robots.txt文件,如果robots文件存在,则会根据robots文件内设置的规则进行爬行抓取,如果文件不存在则会顺着首页进行抓取,那么robots文件的工作原理是什么呢?如何对robots.txt文件进行设置

网站优化robots.txt的原理与设置

一、robots.txt的工作原理

robots.txt是一个纯文本的文件,文件的名字必须全部小写,并且放置在网站的根目录下面,通过文件中的规则声明网站哪些内容不想被搜索引擎蜘蛛抓取收录,或者指定某个搜索引擎不能收录robots.txt也叫做爬虫协议,遵循爬虫协议的搜索引擎蜘蛛,都会根据协议的内容对网站进行爬虫抓取的。

二、robots.txt的设置

1.User-agent的设置

在\"robots.txt\"文件中,如果有多条 User-agent 记录说明有多个 robot 会受到\"robots.txt\"的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为*,则对任何 robot均有效,在\"robots.txt\"文件中,\"User-agent:*\"这样的记录只能有一条。

2.Disallow的设置

这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的URL不会被 robot 访问。

3.Allow的设置

与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow项的值开头的 URL是允许robot访问的。

合理的运用robots.txt文件对网站优化能起到很大的作用,比如当网站出现死链的时候,可以通过robots.txt文件进行屏蔽,这样就不会影响到网站的排名,另外还可以在robots.txt添加网站地图URL,能有效的帮助搜索引擎蜘蛛对网站内容的爬行抓取。

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/69286.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
优化家优化家订阅用户
上一篇 2022年8月26日 00:47
下一篇 2022年8月26日

相关推荐

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息