在搭建自己的网站时,很多站长都会碰到一些垃圾页面和重复页面甚至是用户信息被搜索引擎抓取收入的问题,那么我们应该如何防止这种情况的发生,有效的保护我们网站的隐私呢?这个时候我们就需要用到robots.txt文件了,那么我们首先要知道,什么是网站的robots文件,网站的robots怎么写?
通俗的来讲robots.txt文件是一个纯文本文件,是我们网站和搜索引擎蜘蛛的协议文件,就和合同一样,在搜索引擎抓取我们网站的时候,会第一个访问我们网站的robots.txt协议文件,查看我们网站的制定的协议,再进行网站的抓取。
我们怎么查看一个网站是否制作了robots.txt文件呢?其实很简单,只要在域名后加上/robots.txt就可以访问和查看这个网站的robots.txt文件了。比如dbgseo.com/robots.txt 这样就可以查看点瑞网络博客所制作的robots.txt协议文件了,如果显示的是404那么说明这个网站还没有设置robots.txt协议。
robots.txt文件的作用有哪些呢?下面点瑞网络为大家列出robots协议文件的的几个主要的的作用。
robots是搜索引擎蜘蛛抓取网站时,所抓取的第一个文件
robots可以屏蔽网站的垃圾和重复页面
robots可以保护网站的隐私防止隐私泄露
robots可以让一些不想要上排名的页面,使其不参与排名
robots可以屏蔽不需要搜索引擎蜘蛛抓取的模版插件等
如何制作编写我们网站的robots文件呢?
我们首先要了解robots文件的编写语法,和注意事项。
(User-agent代表选择蜘蛛) User-agent: Baiduspider (Baiduspider代表百度蜘蛛)
* 选择代表所有相关 User-agent: * 所有蜘蛛
Disallow: /(在语句下加上Disallow: /代表禁止抓取)如果要禁止网站根目录里的一个文件比如a/12/l这个文件那么Disallow: /a/12/l即可。
禁止一个文件夹比如c文件夹里所有的文件Disallow: /a 这样即可。
不想让蜘蛛禁止a文件夹里的全部文件,想让蜘蛛抓取a文件夹里的cl66这个文件Disallow: /aAllow: /a/cl66 这样即可。
(Allow:代表应许抓取)我们要禁止网站里的图片,那么如果网站里面有很多图片,有几万个图片难道我们要一个一个选择几万个图片禁止吗?
比如是jpg格式的图片,Disallow: /*.jpg$ $代表结束符 *代表所有。
如果要屏蔽所有js文件的话Disallow: /*.js$ 这样即可。
怎么屏蔽网站的动态路径呢? 如果路径是 www.dbgseo.com/sadada?sdasdadaid=123Disallow: /*?* (禁止抓取路径?前面和后面的所有) 。
Disallow: /a 这个是屏蔽以a字母开始的文件及文件夹。
Disallow: /a/ 这个是只屏蔽a文件夹下的所有文件
好的语句就介绍到这里。,下面是注意事项。
robots协议文件编写的注意事项。
如果我们网站没有设置robots.txt协议文件,那么搜索引擎蜘蛛会默认抓取我们网站的所有页面文件的。
robots.txt协议文件的第一个字母要大写,所有内容要在英文状态下编写
robots.txt协议文件放置在我们网站的根目录中,文件名不能错,不然搜索引擎蜘蛛抓取不到我们的robots.txt协议文件的,字母的大小也是有限制的,robots.txt的文件名必须为小写字母。所有的命令第一个字母需大写,其余的小写。所有的命令之后要有一个英文字符空格。,如果实在嫌robots.txt协议文件编写比较麻烦,也可以找同行业,查看他们的robots.txt协议文件,进行复制略作修改后,传输到网站的更目录即可。
那么最后,点瑞网络衷心的祝愿大家,能够在点瑞网络这里学到更多专业性的seo知识,真正的通过seo赚到钱,从而改善我们的生活质量,提升我们的生活品质。如果大家对seo优化还有有什么疑问的,都可评论留言,或者添加点瑞网络。再次感谢大家的收看。
本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/64557.html
如有侵犯您的合法权益请发邮件951076433@qq.com联系删除