什么是 Robots.txt？

Robots.txt

robots.txt 文件可限制搜索引擎机器人等网络爬虫访问网站上的特定 URL。它还可用于调整某些网络爬虫的抓取速度。

所有 "好的 "网络爬虫都遵守 robots.txt 文件中规定的规则。不过，也有一些 "坏 "的未注册爬虫，它们通常被用于刮削目的，完全无视 robots.txt 文件。

robots.txt 文件必须用于减少/优化爬虫对网站的流量，而不能用于控制网页索引。即使某个 URL 在 robots.txt 文件中被禁止，但如果通过外部链接发现该 URL，Google 仍可将其编入索引。

robots.txt 文件的语法包含以下字段：

这里有一个例子：

User-agent：RanktrackerSiteAudit Disallow：/resources/ Allow：/resources/images/ 抓取延迟：2 网站地图：https://example.com/sitemap.xml

该 robots.txt 文件指示 RanktrackerSiteAudit 爬虫不要抓取"/resources/"目录中的 URL，但"/resources/images/"目录中的 URL 除外，并将请求之间的延迟时间设置为 2 秒。

robots.txt 文件非常重要，因为它能让网站管理员控制爬虫在网站上的行为，优化抓取预算，限制抓取不供公众访问的网站部分。

许多网站所有者会选择不索引某些页面，如作者页面、登录页面或会员制网站内的页面。他们还可能阻止抓取和索引需要通过电子邮件选择才能访问的 PDF 或视频等门控资源。

值得注意的是，如果您使用的是 WordPress 等内容管理系统，/wp-admin/登录页面会被自动屏蔽，无法被爬虫索引。

不过，需要注意的是，谷歌并不建议完全依赖 robots.txt 文件来控制网页的索引。如果你要对页面进行修改，比如添加 "noindex "标签，请确保该页面在 robots.txt 文件中没有被禁止。否则，Googlebot 将无法读取并及时更新索引。

大多数网站并不绝对需要 robots.txt 文件。robots.txt文件的目的是向搜索机器人传达特定指令，但如果您的网站规模较小，或没有大量需要阻止搜索爬虫访问的页面，则可能不需要这样做。

尽管如此，创建一个 robots.txt 文件并将其放在网站上也没有什么坏处。这样，如果将来需要添加指令，也会很方便。

是的，robots.txt 文件的主要功能之一就是阻止搜索引擎访问网页。您可以使用 disallow 参数和要屏蔽的 URL 来实现这一功能。

不过，需要注意的是，仅仅使用 robots.txt 文件对 Googlebot 隐藏 URL 并不能保证 URL 不会被索引。在某些情况下，URL 仍有可能被收录，这取决于URL 本身的文本、外部链接中使用的锚文本以及发现 URL 的外部页面的上下文等因素。

您可以使用 Google Search Console 中的 robots.txt 测试器或外部验证器（如来自Merkle 的验证器）验证您的 robots.txt 文件，并测试说明在特定 URL 上的工作情况。

Robots.txt