为什么日志分析如此有趣

Rate this post

虽然不如 GSC 提供的便捷工具那么常见和简单,但分析服务器日志可以帮助您了解机器人如何与您的网站互动。从技术层面上讲,日志记录了对服务器发出的每个请求,包括来自 Googlebot 和其他爬虫的请求。这可以让您识别它们是否访问了 robots.txt 克罗地亚电话号码数据 应该阻止的区域(或者更确切地说,验证它们是否被阻止)。

 

通过查看这些日志,您还可以检测行为模式、抓取频率和可能发生的错误,但只需查看 Googlebot 对 robots.txt 发出的请求,您就可以安全地了解 Google 正在查看什么以及何时对其进行审核(以及因此审核的内容)。

每天检查 robots.txt 的更改是避免出现问题的一个好主意。

另一个选择是每天检查并保存 robots.txt 的副本。这看似有点繁琐,但它能帮助您检测网站上可能出现的未经授权的更改或意外错误。自动化此过程非常简单,只需设置一个脚本每天保存文件即可。检查保存的内容是否与前一天的内容有所不同会稍微复杂一些(但只是略微不同)。

在 IKAUE,我们经常选择每天保存 Robots.txt 的所有行,但真正的价值确实在于检测它是否发生了变化(因为您可以在 Google Search Console 中查看文件本身的历史内容)。

现在您已经准备好了,熟悉了该文件的工作原理以及我们通常用来审查它的工具,让我们来看看……

据称 Google 并不总是遵守 robots.txt 的 4 个原因

我一直在网上和一些SEO博客上搜索,试图找到许多关于这种典型案例的投诉:在robots.txt文件中向谷歌指示了某些禁止性规定,结果却发现谷歌在某个时候决定入侵你网站的“厨房”。每种情况都有其特殊性,有些可能只是文件损坏或超出了谷歌指示的长度限制。但大多数情况可以概括为以下四种:

案例 1. Google 进入,因为 robots.txt 写得不好

大多数情况下,Google 访问应该被屏蔽的 URL 是因为它可以这样做。也就是说,您以为自己已经屏蔽了它,但事实并非如此。这不是 Google 是指利用软件和技术来自动化  读取文件时出错,而是网站在写入文件时出错。这通常是由于 robots.txt 配置中存在一系列易于管理的错误造成的。这些错误包括:

  • 未能理解 Google 始终从路径开头读取:如果您定义中间代码段时未使用通配符,则不会阻止所需的路径。例如:
  • 不要以“/”开头声明: Google 以前的规则是,它总是假设路径定义以“/”开头,如果不是,它会添加“/”。但不要依赖这条规则。这里有一篇由 Mj Cachón 撰写的文章,其中有一个实验表明,不以“/”开头的声明将被忽略。
  • 无法理解规则的优先级顺序:这不是基于阅读顺序,而是基于定义的长度(字符数)。这意味着,无论规则的出现顺序如何,更具体的规则都会覆盖更通用的规则。例如:

/carpeta/especial/在这种情况下,尽管一般规则会阻止, Googlebot 仍然能够访问/carpeta/。但是,由于被拒绝,它将无法访问 .hml 文件。这是因为允许的路径更具体。也就是说,路径越长(字符越多),权重就越大,而且写入顺序与读取 robots.txt 的顺序无关。

  • 未能理解群组User-agent是唯一的,其定义不能混用:如果您为 分别设置了一个群组,User-agent: Googlebot而为 又设置了另一个User-agent: *群组,则规则不能混用。因此,如果您没有在每个群组中复制必要的策略,则可能会无意中打开或关闭访问权限。
  • 很多人看到这个例子会以为 Google 无法访问 /folder1/,但其实它可以。这是因为用户代理没有聚合;只有最具体的那个才适用于机器人。因此,Google 机器人只被禁止访问 file-extra.html,而其他机器人都被禁止访问这两个文件夹,但 Google 却没有。这是一个常见的错误,很多 SEO 人员都没有意识到。

所有这些问题的解决方案都是一样的:使用 robots.txt 测试器。遗憾的是,Google 并没有提供自己的测试器,但市面上有一些免费的测试器。新闻 美国 并非所有测试器都能正确应用所有规则,但大多数都能做到。另一个选择是使用能够正确应用 robots.txt 的知名爬虫程序,并观察其行为(例如,Screaming Frog 允许您指定自己的 robots.txt 文件并观察其抓取情况)。

情况 2. 索引并不以抓取为条件。Google 并非进入,而是即使不进入也能索引。

也就是说,Google 在大多数情况下遵循相同的流程:它会抓取你的商业页面,并在有内容时将其编入索引。但是,即使你不允许 Google 通过 robots.txt 访问你的网站,Google 还可以通过另外两种方式找到你网站上的 URL 并将其编入索引:

a) 该 URL 之前已被索引

如果某个网址过去已被编入索引并被抓取,Google 就已掌握您的数据并知道如何处理。当您在 robots.txt 中屏蔽该网址时,Google 会停止抓取,但这并不会抹去它已经掌握的关于该网址的信息。从搜索结果中移除该网址可能需要很长时间(有时甚至超过一个月),因此即使该网址已被屏蔽,Google 仍会继续显示该网址。

在 Google Search Console 中,您会看到这些网址显示为“正常”,并在适当时更改为“已屏蔽”。您只需在 robots.txt 测试程序中验证您的屏蔽操作是否正确(例如,检查相关网址是否确实已被屏蔽)。

如果您希望 URL 被取消索引,您有两个选择,但都不完美:

  • 在 robots.txt 中解除屏蔽并添加元标记noindex这将阻止索引,但不会阻止抓取。但是,很多时候,如果您先取消索引,然后(一旦取消索引后)屏蔽它,就不会再遇到任何问题。
  • 只能暂时解决问题(90 天),之后可能会重新被收录。但至少可以快速帮你清除 URL。

就我个人而言,我倾向于什么都不做。如果你根据 robots.txt 采取行动,那是为了抓取,而不是为了索引。除非 URL 有问题,我们不想让任何人看到它,否则它是否被索引并不重要。否则,如果你需要尽快将其从索引中移除,我建议手动取消索引,然后监控其状态 90 天。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端