该 URL 有外部链接,并且 Google 已经发现了它们

Rate this post

我们常常误以为 Google 必须读取 URL 的 HTML 才能将其编入索引。事实并非如此。当 Google 检测到多个指向被 robots.txt 屏蔽的网站的链接时,就会出现一种奇怪的现象:它无法抓取该网站,但可以在没有内容的情况下将其编入索引。显然,如果没有标题、H1、内容等,该 URL 的排名肯定不会很高,但这并不妨碍 Google 将其作为非常具体或品牌搜索的结果。

当这种情况发生时,你就有线索来检测它:

  • 在 Google Search Console 中,它们将在页面报告中显示为警告:“已被阻止但已编入索引”。
  • 当搜索此 URL 时,您会在 Google 代码片段描述中看到,由于 Robots.txt 阻止,该描述未显示。

在这种情况下,通常只需等待即可,Google 最终会将这些网址从索引中移除,因为它认为这些网址毫无价值。至少,尤其是当它们是非常重要的网址 塞浦路斯电话号码数据 (例如品牌名称或主页)时,如果没有noindex.

案例 3. Googlebot 暂时对 robots.txt 视而不见

在 IKAUE,我们将“Googlebot 盲区”定义为 Google 无法察觉我们对网站所做的更改的时间。也就是说,从我们进行更改到 Googlebot 访问更改后的网址并读取更改内容所需的时间。每个网址的这个时间各不相同,对于距离很远的网址,这个时间可能非常长,但在 robots.txt 文件中,这个时间要短得多。

当 Google 向您的网站请求 URL 时,它始终需要知道是否有权限访问,但它并不总是会请求 robots.txt 文件来获取信息。相反,它会将 robots.txt 文件的内容缓存(存储)24 小时,这样就无需反复请求您的网站。

也就是说,如果 Googlebot 在 10 小时前读取了你的 robots.txt 文件,即使你现在修改了它,14 小时内它也不会再次请求。它不会意识到文件已被修改,因此也不会注意到它。这被称为“robots.txt 盲区”。

这意味着,您可以在 robots.txt 中屏蔽某些网址,而 Google 可能会在几个小时内继续访问这些网址,而不知道您的更改已生效。发生这种情况时,并非 Google 忽略了 robots.txt,而是 Google 尚未读取它。然而,在网站进行重大更改(例如迁移或新版本)期间,这种情况可能会非常严重,因为它会让 Google 在 24 小时内访问您不希望它访问的网址。这是大多数 SEO“X 文件”的来源,这些文件声称 Google 访问了它已禁止的网址,您应该密切关注它。

要解决这个问题,我们需要返回 GSC 的 robots.txt 报告工具,在那里我们可以随时要求它重新读取 robots.txt 文件。这样,我们就可以强制它读取并注意到文件内容已更改。因此,一个好的 SEO 方案是,无论网站或此文件发生什么变化,都要触发此功能。

 

您可以查看 了解更多详细信息。

情况 4. Google 请求 robots.txt 时服务器出现故障

这是我们无法控制的,但它可能会破坏我们的索引策略。如果 Googlebot 请求 robots.txt 时服务器崩溃了,会发生什么?这可不是什么好事。

  • 当它给出 200 代码时:始终遵循 robots.txt 的内容。
  • 当您提供 30x 代码时:目标 URL 会被访问并解析为您自己的 URL。这可能是好事,也可能是坏事,具体取决于内容是否合适。
  • 当显示 40x 代码时:这被解释为你的 robots.txt 文件为空,Google 可以随意输入任何内容。这是一个危险的错误,因为如果发生这种情况,你在 robots.txt 中禁止的所有内容都将失效,Google 将开始输入你的所有网址。
  • 当 Googlebot出现 429、500 或 503 错误代码时:Googlebot 知道这可能会给您已经饱和的网站增加更多负载,因此会停止抓取,以免进一 公关专家如何利用品牌分析实现自动化工作 步损害您的服务器。从那时起,您会发现 Googlebot 只会访问 robots.txt 文件,而不会访问您的其他网址,直到错误停止为止。因此,出现这些错误代码允许您停止 Google 的抓取,但这种停止是有时间限制的;在此之后(24 小时或 Google 认为合适的任何时间),它会继续抓取,就像出现 404 错误一样(清除路径,我们曾说过这是可能发生的最危险的情况)。

如您所见,服务器在 robots.txt 中抛出不受控制的错误非常危险。因此,定期检查 Google Search Console 抓取统计信息或服务器日志是个好主意。尤其是在您看到 Google 不应该访问的网址中的条目时,因为您很可能会在那里找到发生这种情况的原因。

在 IKAUE,我们遇到过几起此类案例:

  • 迁移过程中,当从迁移网站向新网站发出 301 请求时,我们开始看到 Google 如何访问它从未在旧网站上访问过的 URL(因为新网站的 robots.txt 已应用于旧网站)
  • 由于编程错误,服务器有时会在 robots.txt 上给出 404,我们可以看到 Google 几天内会进入许多被阻止的 URL。
  • 安全系统一旦识别出 Googlebot 是恶意机器人,就会开始向某些网址发出 410 错误。不幸的是,当这种情况发生时,它有时会在 robots.txt 文件中收到 410 错误,然后开始从各个方向入侵。
  • 服务器系统性崩溃,导致 Google 出现 500 或 503 错误。这些错误本身就已经很严重了,但我们也发现它们会突然给 Crawlbudget 造成重大损失。此外,在长时间运行的情况下,它们还会允许访问许多被屏蔽的 URL。

记住这一点:每当谷歌进入它不该进入的领域时,都是因为它找到了允许它这样做的条件。至于这种条件是否牵强附会,则是另一回事。

结论

简而言之,Google 始终遵守 robots.txt 的规定,毫无例外。我们之前描述的一些情况可以解释 Google 似乎不遵守 robots.txt 的情况。通常,这些“不遵守规定”是由于  新闻 美国 SEO 人员对规则的无知,他们声称 Google 忽略了他们。这可能是因为他们不完全了解 Google 的运作方式,也可能是他们缺少数据,又或者有人向他们保证一切都没有改变,但事实并非如此。

检查 robots.txt 文件、使用 Google Robots.txt 报告等工具并进行日志分析,以确保一切正常运作,是个好主意。了解 robots.txt 的工作原理以及机器人如何与其交互至关重要。这样,您就可以避免意外,并确保您的 SEO 策略得到正确执行。

请记住,沟通和持续监控至关重要。我们始终投入大量资源,确保客户的场地尽在掌控。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端