在SEO优化中,robots.txt和meta robots都是用於阻止Google收录页面的有效手段,因此robots.txt和meta robots的设置是非常重要,本文将为大家整理「robots.txt和meta robots的区别以及各自的用法」,希望大家在设置robots.txt和meta robots时能少走更多弯路!
简单来说:
• robots.txt是用於阻止搜索引擎检索网站资料,如果网站使用了robots.txt来阻止搜索引擎检索某些资料,那麽搜索引擎将会略过你所阻挡的页面,不去做检索。
• meta robots则是在索引面上阻止搜索引擎索引你的页面,但Google还是有机会去爬取您的网站资料。
SEO优化基础知识:学习使用robots.txt
大多数情况,我们都不会使用robots.txt来阻止搜索引擎检索网站,除非这个页面对SEO有负面影响,比如正在开发中但还未完成的网页。
如何设置robots.txt?
使用robots.txt档案很简单,只需要建立一个档案名为「robots」的txt档案,并且上传到根目录就好了;同时,设置robots.txt的语法也很简单,通过在文件指定user-agents(用户代理)和directives(指令),就可以告知搜索引擎别抓取哪些页面路径。
以下是robots.txt文件的基本格式:
Sitemap: [站点地图的URL地址]
User-agent: [搜索引擎爬虫身份]
Disallow:
Allow:
一般来说:
User-agent:填入搜寻引擎蜘蛛的值(* 号代表全部)
Disallow:填入你希望搜寻引擎别检索的页面路径。如果你希望搜索引擎禁止抓取所有页面,可以直接在Disallow後直接加「/」
Allow:若你禁止检索的页面路径里面又有特定路径你希望搜寻引擎检索,则填入。
如何看到网站的robots.txt档案?只需在网站的URL後添加/robots.txt,就可以直接到达网站的robots.txt档案,如:www.×××××.com/robots.txt。
为什麽robots.txt对SEO优化那麽重要?
很多客户在网站迁移後或新建网站後,总会很疑惑地咨询我们:为甚麽网站做了好几个月SEO优化,但是SEO排名依然没有什麽起色?
这可能是robots.txt没有正确更新所导致的。使用robots.txt对於SEO成功是非常重要的,但是如果在设置robots.txt档案时,没有了解它的工作原理,导致设置上出现问题,那麽网站的SEO排名也会受到影响。
因此,在设置robots.txt档案之前,首先记住以下一些基本知识:
● 正确设置robot.txt的格式,如:User-agent→Disallow→Allow→Host→Sitemap,使搜索引擎爬虫能以正确顺序访问网站。
● 确保「Allow」或「Disallow」的每个URL都是放置於单独一行上,并且不要以空格分隔。
● 使用小写字母给robots.txt命名
● 不用使用除 * 和 $ 以外的其他特殊符号,否则搜索引擎无法识别。
● 针对不同子域名分别创建robots.txt。
● robots.txt只在当前所属的子域名中生效,如果你需要控制不同子域名的抓取规则,那就需要分开设置不同robots.txt档案。比如「×××××.com」和「blog.×××××.com」是两个独立网站,那就需要在这两个网站的根目录中分别添加robots.txt档案。
● 在robots.txt中使用「#」添加注释,爬虫会忽略「#」後面的内容,但可以向开发者说明robots.txt指令的用途。
● 如果robots.txt设置某个页面是Disallow的,那麽链接权重是不会传递的。
● 不用使用robots.txt保护或阻止敏感数据。
如何检测robots.txt中的问题?
由於robots.txt很容易出问题,因此定期检测是十分重要的。你可以使用Google Search Console中查看 「Coverage(索引覆盖率)」报告,比如:
① 将指定URL放入Google Search Console中的URL Inspection tool(网址检测),如果被robots.txt屏蔽了,那麽就会像下方这样显示:
② 如果你在Google Search Console中提交sitemap时,出现以下情况,那说明你的网站至少有一条URL被robots.txt屏蔽了:
如果你创建的sitemap没问题并且不包含canonicalized(规范标签)、noindexed(指定不索引)、redirected(跳转)等页面,那麽你提交的所有URL都不应该被robots.txt屏蔽。如果发现被屏蔽了,那就需要调查受影响的页面,并相应地调整robots.txt档案,删除阻止该页面的指令。
你也可以使用Google的robots.txt检测工具查看哪条指令在阻止访问:
修改时需要小心,避免影响到网站的其他页面和档案。
SEO优化基础知识:学习使用meta robots
如果你有页面不希望出现在搜索引擎中,更建议使用meta robots来控制索引,这样你的页面资料仍然会让Google检索,并且对我整个网站的SEO都有帮助。如果你确定这些页面会影响SEO并且不希望Google检索,那就使用robots.txt。
如何设置meta robots?
使用meta robots时,你只需要在「不希望被索引的页面底下」,加入这个标签在Head里就可以。
meta robots标签是长这样的:
<head>
<meta name=”robots” content=”noindex /nofollow”>
</head>
meta robots标签是由两部分组成的:
▪ name=” “,用於指定user-agent,如 name=”Googlebot”。
▪ content=” “,是用於告知爬虫你想做什麽。
以下是一些常见的Meta robots指令:
all:对内容索引没有限制。该指令也是Meta Robots Tag的默认指令,它对搜索引擎的工作没有影响。可以用all指令作为 index, follow的快捷方式。
index:允许搜索引擎在他们的搜索结果中将该页面编入索引。这是默认值,你不需要在页面中添加这个指令。
noindex:从搜索引擎索引和搜索结果中删除页面。添加了noindex的页面可以让搜索引擎无法找到该页面或无法点击。
follow:允许搜索引擎跟随该页面上的内链和外部反向链接。
nofollow:不允许搜索引擎跟随该页面上的内链和外部反向链接,所以该页面上的链接不会传递链接权重。
none:与noindex和nofollow标签的功能相同。
noarchive:不要在SERP中显示「保存的副本」链接。
nosnippet:不要在SERP中显示此页面的扩展描述版本。
notranslate:不要在SERP中提供此页面的翻译。
noimageindex :不要索引此页面上的图像。
unavailable_after:[RFC-850 date/time]:在指定日期之後不要在SERP中显示此页面,日期格式为RFC 850标准。
max-snippet:为元描述中的字符数规定一个最大数字。
max-video-preview:规定视频预览的最大秒数。
max-image-preview:规定图像预览的最大尺寸。
以下是不同搜索引擎会接受的不同Meta robots指令:
使用meta robots时需要注意什麽?
① 注意字母的大小,虽然搜索引擎可以识别大小写的属性、值和参数,但是最好还是使用小写字母来提高代码源的可读性。
② 避免使用<meta>多个标签,使用多个meta标签容易导致代码源冲突,但你可以在<meta>标签中使用多个值,例如<meta name =”robots” content =”noindex / nofollow”>。
③ 不要使用有冲突的meta标签,以免造成索引错误,比如页面有<meta name =” robots” content =” follow”>和<meta name =” robots” content =” nofollow”>两个标签,由於爬虫会优先考虑带有限制性质的值,因此它只会考虑使用「nofollow」。
了解robots.txt和meta robots的区别之後,你就可以优化网站的检索及索引情况,阻止特定页面被检索或被索引。但需注意的是,Google官方有明确声明,虽然robots.txt和meta robots可以告知爬虫不检索或索引哪些页面,而Google也非常尊重你的决定,但Google官方并不会保证搜索引擎会完全服从robots.txt和meta robots,因为如果页面有很多反向链接、流量很高、内容很优质等,同样会执意检索和索引你的网站!
本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/41849.html
如有侵犯您的合法权益请发邮件951076433@qq.com联系删除