SEO优化基础知识：robots.txt和meta robots有什麽区别？它们各自的用法是怎样

在SEO优化中，robots.txt和meta robots都是用於阻止Google收录页面的有效手段，因此robots.txt和meta robots的设置是非常重要，本文将为大家整理「robots.txt和meta robots的区别以及各自的用法」，希望大家在设置robots.txt和meta robots时能少走更多弯路！

SEO优化基础知识

简单来说：

• robots.txt是用於阻止搜索引擎检索网站资料，如果网站使用了robots.txt来阻止搜索引擎检索某些资料，那麽搜索引擎将会略过你所阻挡的页面，不去做检索。

• meta robots则是在索引面上阻止搜索引擎索引你的页面，但Google还是有机会去爬取您的网站资料。

SEO优化基础知识：学习使用robots.txt

大多数情况，我们都不会使用robots.txt来阻止搜索引擎检索网站，除非这个页面对SEO有负面影响，比如正在开发中但还未完成的网页。

如何设置robots.txt？

使用robots.txt档案很简单，只需要建立一个档案名为「robots」的txt档案，并且上传到根目录就好了；同时，设置robots.txt的语法也很简单，通过在文件指定user-agents（用户代理）和directives（指令），就可以告知搜索引擎别抓取哪些页面路径。

以下是robots.txt文件的基本格式：

Sitemap: [站点地图的URL地址]

User-agent: [搜索引擎爬虫身份]

Disallow:

Allow：

一般来说：

User-agent：填入搜寻引擎蜘蛛的值（* 号代表全部）

Disallow：填入你希望搜寻引擎别检索的页面路径。如果你希望搜索引擎禁止抓取所有页面，可以直接在Disallow後直接加「/」

Allow：若你禁止检索的页面路径里面又有特定路径你希望搜寻引擎检索，则填入。

如何看到网站的robots.txt档案？只需在网站的URL後添加/robots.txt，就可以直接到达网站的robots.txt档案，如：www.×××××.com/robots.txt。

为什麽robots.txt对SEO优化那麽重要？

很多客户在网站迁移後或新建网站後，总会很疑惑地咨询我们：为甚麽网站做了好几个月SEO优化，但是SEO排名依然没有什麽起色？

这可能是robots.txt没有正确更新所导致的。使用robots.txt对於SEO成功是非常重要的，但是如果在设置robots.txt档案时，没有了解它的工作原理，导致设置上出现问题，那麽网站的SEO排名也会受到影响。

因此，在设置robots.txt档案之前，首先记住以下一些基本知识：

● 正确设置robot.txt的格式，如：User-agent→Disallow→Allow→Host→Sitemap，使搜索引擎爬虫能以正确顺序访问网站。

● 确保「Allow」或「Disallow」的每个URL都是放置於单独一行上，并且不要以空格分隔。

● 使用小写字母给robots.txt命名

● 不用使用除 * 和 $ 以外的其他特殊符号，否则搜索引擎无法识别。

● 针对不同子域名分别创建robots.txt。

● robots.txt只在当前所属的子域名中生效，如果你需要控制不同子域名的抓取规则，那就需要分开设置不同robots.txt档案。比如「×××××.com」和「blog.×××××.com」是两个独立网站，那就需要在这两个网站的根目录中分别添加robots.txt档案。

● 在robots.txt中使用「#」添加注释，爬虫会忽略「#」後面的内容，但可以向开发者说明robots.txt指令的用途。

● 如果robots.txt设置某个页面是Disallow的，那麽链接权重是不会传递的。

● 不用使用robots.txt保护或阻止敏感数据。

如何检测robots.txt中的问题？

由於robots.txt很容易出问题，因此定期检测是十分重要的。你可以使用Google Search Console中查看「Coverage（索引覆盖率）」报告，比如：

① 将指定URL放入Google Search Console中的URL Inspection tool（网址检测），如果被robots.txt屏蔽了，那麽就会像下方这样显示：

SEO优化基础知识

② 如果你在Google Search Console中提交sitemap时，出现以下情况，那说明你的网站至少有一条URL被robots.txt屏蔽了：

SEO优化基础知识

如果你创建的sitemap没问题并且不包含canonicalized（规范标签）、noindexed（指定不索引）、redirected（跳转）等页面，那麽你提交的所有URL都不应该被robots.txt屏蔽。如果发现被屏蔽了，那就需要调查受影响的页面，并相应地调整robots.txt档案，删除阻止该页面的指令。

你也可以使用Google的robots.txt检测工具查看哪条指令在阻止访问：

SEO优化基础知识

修改时需要小心，避免影响到网站的其他页面和档案。

SEO优化基础知识：学习使用meta robots

如果你有页面不希望出现在搜索引擎中，更建议使用meta robots来控制索引，这样你的页面资料仍然会让Google检索，并且对我整个网站的SEO都有帮助。如果你确定这些页面会影响SEO并且不希望Google检索，那就使用robots.txt。

如何设置meta robots?

使用meta robots时，你只需要在「不希望被索引的页面底下」，加入这个标签在Head里就可以。

meta robots标签是长这样的：

<head>

</head>

meta robots标签是由两部分组成的：

▪ name=” “，用於指定user-agent，如 name=”Googlebot”。

▪ content=” “，是用於告知爬虫你想做什麽。

以下是一些常见的Meta robots指令：

all：对内容索引没有限制。该指令也是Meta Robots Tag的默认指令，它对搜索引擎的工作没有影响。可以用all指令作为 index, follow的快捷方式。

index：允许搜索引擎在他们的搜索结果中将该页面编入索引。这是默认值，你不需要在页面中添加这个指令。

noindex：从搜索引擎索引和搜索结果中删除页面。添加了noindex的页面可以让搜索引擎无法找到该页面或无法点击。

follow：允许搜索引擎跟随该页面上的内链和外部反向链接。

nofollow：不允许搜索引擎跟随该页面上的内链和外部反向链接，所以该页面上的链接不会传递链接权重。

none：与noindex和nofollow标签的功能相同。

noarchive：不要在SERP中显示「保存的副本」链接。

nosnippet：不要在SERP中显示此页面的扩展描述版本。

notranslate：不要在SERP中提供此页面的翻译。

noimageindex ：不要索引此页面上的图像。

unavailable_after:[RFC-850 date/time]：在指定日期之後不要在SERP中显示此页面，日期格式为RFC 850标准。

max-snippet：为元描述中的字符数规定一个最大数字。

max-video-preview：规定视频预览的最大秒数。

max-image-preview：规定图像预览的最大尺寸。

以下是不同搜索引擎会接受的不同Meta robots指令：

SEO优化基础知识

使用meta robots时需要注意什麽?

① 注意字母的大小，虽然搜索引擎可以识别大小写的属性、值和参数，但是最好还是使用小写字母来提高代码源的可读性。

② 避免使用<meta>多个标签，使用多个meta标签容易导致代码源冲突，但你可以在<meta>标签中使用多个值，例如<meta name =”robots” content =”noindex / nofollow”>。

③ 不要使用有冲突的meta标签，以免造成索引错误，比如页面有<meta name =” robots” content =” follow”>和<meta name =” robots” content =” nofollow”>两个标签，由於爬虫会优先考虑带有限制性质的值，因此它只会考虑使用「nofollow」。

了解robots.txt和meta robots的区别之後，你就可以优化网站的检索及索引情况，阻止特定页面被检索或被索引。但需注意的是，Google官方有明确声明，虽然robots.txt和meta robots可以告知爬虫不检索或索引哪些页面，而Google也非常尊重你的决定，但Google官方并不会保证搜索引擎会完全服从robots.txt和meta robots，因为如果页面有很多反向链接、流量很高、内容很优质等，同样会执意检索和索引你的网站！

本文来自投稿，不代表重蔚自留地立场，如若转载，请注明出处https://www.cwhello.com/41849.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除