已经发现了它们 |萨玛旅游

Rate this post

我们常常误以为 Google 必须读取 URL 的 HTML 才能将其编入索引。事实并非如此。当 Google 检测到多个指向被 robots.txt 屏蔽的网站的链接时，就会出现一种奇怪的现象：它无法抓取该网站，但可以在没有内容的情况下将其编入索引。显然，如果没有标题、H1、内容等，该 URL 的排名肯定不会很高，但这并不妨碍 Google 将其作为非常具体或品牌搜索的结果。

当这种情况发生时，你就有线索来检测它：

在 Google Search Console 中，它们将在页面报告中显示为警告：“已被阻止但已编入索引”。
当搜索此 URL 时，您会在 Google 代码片段描述中看到，由于 Robots.txt 阻止，该描述未显示。

在这种情况下，通常只需等待即可，Google 最终会将这些网址从索引中移除，因为它认为这些网址毫无价值。至少，尤其是当它们是非常重要的网址塞浦路斯电话号码数据（例如品牌名称或主页）时，如果没有noindex.

案例 3. Googlebot 暂时对 robots.txt 视而不见

在 IKAUE，我们将“Googlebot 盲区”定义为 Google 无法察觉我们对网站所做的更改的时间。也就是说，从我们进行更改到 Googlebot 访问更改后的网址并读取更改内容所需的时间。每个网址的这个时间各不相同，对于距离很远的网址，这个时间可能非常长，但在 robots.txt 文件中，这个时间要短得多。

当 Google 向您的网站请求 URL 时，它始终需要知道是否有权限访问，但它并不总是会请求 robots.txt 文件来获取信息。相反，它会将 robots.txt 文件的内容缓存（存储）24 小时，这样就无需反复请求您的网站。

也就是说，如果 Googlebot 在 10 小时前读取了你的 robots.txt 文件，即使你现在修改了它，14 小时内它也不会再次请求。它不会意识到文件已被修改，因此也不会注意到它。这被称为“robots.txt 盲区”。

这意味着，您可以在 robots.txt 中屏蔽某些网址，而 Google 可能会在几个小时内继续访问这些网址，而不知道您的更改已生效。发生这种情况时，并非 Google 忽略了 robots.txt，而是 Google 尚未读取它。然而，在网站进行重大更改（例如迁移或新版本）期间，这种情况可能会非常严重，因为它会让 Google 在 24 小时内访问您不希望它访问的网址。这是大多数 SEO“X 文件”的来源，这些文件声称 Google 访问了它已禁止的网址，您应该密切关注它。

要解决这个问题，我们需要返回 GSC 的 robots.txt 报告工具，在那里我们可以随时要求它重新读取 robots.txt 文件。这样，我们就可以强制它读取并注意到文件内容已更改。因此，一个好的 SEO 方案是，无论网站或此文件发生什么变化，都要触发此功能。

您可以查看了解更多详细信息。

情况 4. Google 请求 robots.txt 时服务器出现故障

这是我们无法控制的，但它可能会破坏我们的索引策略。如果 Googlebot 请求 robots.txt 时服务器崩溃了，会发生什么？这可不是什么好事。

当它给出 200 代码时：始终遵循 robots.txt 的内容。
当您提供 30x 代码时：目标 URL 会被访问并解析为您自己的 URL。这可能是好事，也可能是坏事，具体取决于内容是否合适。
当显示 40x 代码时：这被解释为你的 robots.txt 文件为空，Google 可以随意输入任何内容。这是一个危险的错误，因为如果发生这种情况，你在 robots.txt 中禁止的所有内容都将失效，Google 将开始输入你的所有网址。
当 Googlebot出现 429、500 或 503 错误代码时：Googlebot 知道这可能会给您已经饱和的网站增加更多负载，因此会停止抓取，以免进一公关专家如何利用品牌分析实现自动化工作步损害您的服务器。从那时起，您会发现 Googlebot 只会访问 robots.txt 文件，而不会访问您的其他网址，直到错误停止为止。因此，出现这些错误代码允许您停止 Google 的抓取，但这种停止是有时间限制的；在此之后（24 小时或 Google 认为合适的任何时间），它会继续抓取，就像出现 404 错误一样（清除路径，我们曾说过这是可能发生的最危险的情况）。

如您所见，服务器在 robots.txt 中抛出不受控制的错误非常危险。因此，定期检查 Google Search Console 抓取统计信息或服务器日志是个好主意。尤其是在您看到 Google 不应该访问的网址中的条目时，因为您很可能会在那里找到发生这种情况的原因。

在 IKAUE，我们遇到过几起此类案例：

迁移过程中，当从迁移网站向新网站发出 301 请求时，我们开始看到 Google 如何访问它从未在旧网站上访问过的 URL（因为新网站的 robots.txt 已应用于旧网站）
由于编程错误，服务器有时会在 robots.txt 上给出 404，我们可以看到 Google 几天内会进入许多被阻止的 URL。
安全系统一旦识别出 Googlebot 是恶意机器人，就会开始向某些网址发出 410 错误。不幸的是，当这种情况发生时，它有时会在 robots.txt 文件中收到 410 错误，然后开始从各个方向入侵。
服务器系统性崩溃，导致 Google 出现 500 或 503 错误。这些错误本身就已经很严重了，但我们也发现它们会突然给 Crawlbudget 造成重大损失。此外，在长时间运行的情况下，它们还会允许访问许多被屏蔽的 URL。

记住这一点：每当谷歌进入它不该进入的领域时，都是因为它找到了允许它这样做的条件。至于这种条件是否牵强附会，则是另一回事。

结论

简而言之，Google 始终遵守 robots.txt 的规定，毫无例外。我们之前描述的一些情况可以解释 Google 似乎不遵守 robots.txt 的情况。通常，这些“不遵守规定”是由于新闻美国 SEO 人员对规则的无知，他们声称 Google 忽略了他们。这可能是因为他们不完全了解 Google 的运作方式，也可能是他们缺少数据，又或者有人向他们保证一切都没有改变，但事实并非如此。

检查 robots.txt 文件、使用 Google Robots.txt 报告等工具并进行日志分析，以确保一切正常运作，是个好主意。了解 robots.txt 的工作原理以及机器人如何与其交互至关重要。这样，您就可以避免意外，并确保您的 SEO 策略得到正确执行。

请记住，沟通和持续监控至关重要。我们始终投入大量资源，确保客户的场地尽在掌控。

该 URL 有外部链接，并且 Google 已经发现了它们

案例 3. Googlebot 暂时对 robots.txt 视而不见

情况 4. Google 请求 robots.txt 时服务器出现故障

结论

發佈留言取消回覆

案例 3. Googlebot 暂时对 robots.txt 视而不见

情况 4. Google 请求 robots.txt 时服务器出现故障

结论

Related Posts

發佈留言 取消回覆

發佈留言取消回覆