分析如此有趣 |萨玛旅游

Rate this post

虽然不如 GSC 提供的便捷工具那么常见和简单，但分析服务器日志可以帮助您了解机器人如何与您的网站互动。从技术层面上讲，日志记录了对服务器发出的每个请求，包括来自 Googlebot 和其他爬虫的请求。这可以让您识别它们是否访问了 robots.txt 克罗地亚电话号码数据应该阻止的区域（或者更确切地说，验证它们是否被阻止）。

通过查看这些日志，您还可以检测行为模式、抓取频率和可能发生的错误，但只需查看 Googlebot 对 robots.txt 发出的请求，您就可以安全地了解 Google 正在查看什么以及何时对其进行审核（以及因此审核的内容）。

每天检查 robots.txt 的更改是避免出现问题的一个好主意。

另一个选择是每天检查并保存 robots.txt 的副本。这看似有点繁琐，但它能帮助您检测网站上可能出现的未经授权的更改或意外错误。自动化此过程非常简单，只需设置一个脚本每天保存文件即可。检查保存的内容是否与前一天的内容有所不同会稍微复杂一些（但只是略微不同）。

在 IKAUE，我们经常选择每天保存 Robots.txt 的所有行，但真正的价值确实在于检测它是否发生了变化（因为您可以在 Google Search Console 中查看文件本身的历史内容）。

现在您已经准备好了，熟悉了该文件的工作原理以及我们通常用来审查它的工具，让我们来看看……

据称 Google 并不总是遵守 robots.txt 的 4 个原因

我一直在网上和一些SEO博客上搜索，试图找到许多关于这种典型案例的投诉：在robots.txt文件中向谷歌指示了某些禁止性规定，结果却发现谷歌在某个时候决定入侵你网站的“厨房”。每种情况都有其特殊性，有些可能只是文件损坏或超出了谷歌指示的长度限制。但大多数情况可以概括为以下四种：

案例 1. Google 进入，因为 robots.txt 写得不好

大多数情况下，Google 访问应该被屏蔽的 URL 是因为它可以这样做。也就是说，您以为自己已经屏蔽了它，但事实并非如此。这不是 Google 是指利用软件和技术来自动化读取文件时出错，而是网站在写入文件时出错。这通常是由于 robots.txt 配置中存在一系列易于管理的错误造成的。这些错误包括：

未能理解 Google 始终从路径开头读取：如果您定义中间代码段时未使用通配符，则不会阻止所需的路径。例如：

不要以“/”开头声明： Google 以前的规则是，它总是假设路径定义以“/”开头，如果不是，它会添加“/”。但不要依赖这条规则。这里有一篇由 Mj Cachón 撰写的文章，其中有一个实验表明，不以“/”开头的声明将被忽略。
无法理解规则的优先级顺序：这不是基于阅读顺序，而是基于定义的长度（字符数）。这意味着，无论规则的出现顺序如何，更具体的规则都会覆盖更通用的规则。例如：

/carpeta/especial/在这种情况下，尽管一般规则会阻止， Googlebot 仍然能够访问/carpeta/。但是，由于被拒绝，它将无法访问 .hml 文件。这是因为允许的路径更具体。也就是说，路径越长（字符越多），权重就越大，而且写入顺序与读取 robots.txt 的顺序无关。

未能理解群组User-agent是唯一的，其定义不能混用：如果您为分别设置了一个群组，User-agent: Googlebot而为又设置了另一个User-agent: *群组，则规则不能混用。因此，如果您没有在每个群组中复制必要的策略，则可能会无意中打开或关闭访问权限。

很多人看到这个例子会以为 Google 无法访问 /folder1/，但其实它可以。这是因为用户代理没有聚合；只有最具体的那个才适用于机器人。因此，Google 机器人只被禁止访问 file-extra.html，而其他机器人都被禁止访问这两个文件夹，但 Google 却没有。这是一个常见的错误，很多 SEO 人员都没有意识到。

所有这些问题的解决方案都是一样的：使用 robots.txt 测试器。遗憾的是，Google 并没有提供自己的测试器，但市面上有一些免费的测试器。新闻美国并非所有测试器都能正确应用所有规则，但大多数都能做到。另一个选择是使用能够正确应用 robots.txt 的知名爬虫程序，并观察其行为（例如，Screaming Frog 允许您指定自己的 robots.txt 文件并观察其抓取情况）。

情况 2. 索引并不以抓取为条件。Google 并非进入，而是即使不进入也能索引。

也就是说，Google 在大多数情况下遵循相同的流程：它会抓取你的商业页面，并在有内容时将其编入索引。但是，即使你不允许 Google 通过 robots.txt 访问你的网站，Google 还可以通过另外两种方式找到你网站上的 URL 并将其编入索引：

a) 该 URL 之前已被索引

如果某个网址过去已被编入索引并被抓取，Google 就已掌握您的数据并知道如何处理。当您在 robots.txt 中屏蔽该网址时，Google 会停止抓取，但这并不会抹去它已经掌握的关于该网址的信息。从搜索结果中移除该网址可能需要很长时间（有时甚至超过一个月），因此即使该网址已被屏蔽，Google 仍会继续显示该网址。

在 Google Search Console 中，您会看到这些网址显示为“正常”，并在适当时更改为“已屏蔽”。您只需在 robots.txt 测试程序中验证您的屏蔽操作是否正确（例如，检查相关网址是否确实已被屏蔽）。

如果您希望 URL 被取消索引，您有两个选择，但都不完美：

在 robots.txt 中解除屏蔽并添加元标记noindex：这将阻止索引，但不会阻止抓取。但是，很多时候，如果您先取消索引，然后（一旦取消索引后）屏蔽它，就不会再遇到任何问题。
这只能暂时解决问题（90 天），之后可能会重新被收录。但至少可以快速帮你清除 URL。

就我个人而言，我倾向于什么都不做。如果你根据 robots.txt 采取行动，那是为了抓取，而不是为了索引。除非 URL 有问题，我们不想让任何人看到它，否则它是否被索引并不重要。否则，如果你需要尽快将其从索引中移除，我建议手动取消索引，然后监控其状态 90 天。

为什么日志分析如此有趣

每天检查 robots.txt 的更改是避免出现问题的一个好主意。

据称 Google 并不总是遵守 robots.txt 的 4 个原因

案例 1. Google 进入，因为 robots.txt 写得不好

情况 2. 索引并不以抓取为条件。Google 并非进入，而是即使不进入也能索引。

a) 该 URL 之前已被索引

發佈留言取消回覆

每天检查 robots.txt 的更改是避免出现问题的一个好主意。

据称 Google 并不总是遵守 robots.txt 的 4 个原因

案例 1. Google 进入，因为 robots.txt 写得不好

情况 2. 索引并不以抓取为条件。Google 并非进入，而是即使不进入也能索引。

a) 该 URL 之前已被索引

Related Posts

發佈留言 取消回覆

發佈留言取消回覆