如何分析爬行 |萨玛旅游

Rate this post

典型的练习首先会以条形图的形式，按抓取深度级别来表示 URL 数量。这将显示一条曲线，该曲线通常从抓取深度为 0 的 URL 开始，在某个抓取深度级别达到最高点，然后逐渐下降，关注链接数最低的 URL。

在示例图中，您可以看到该网站的曲线如何从抓取深度 3 级开始显著增加流量。在深度 6 级时，其分布达到最大值，然后随着抓取过程的结束而下降，对于某些网址，其抓取深度达到 20 级以上。

流量捕获的起始点和曲线的峰值是两个有助于我们了解网站链接情况的指标：

曲线的起点应始终为 0 级。如果此级别延迟，则表明网站结构在链接数量方面不够理想，或者页面之间的链接重复性过高（因此在提升级别时不会添加新链接）。这种情况通常发生在菜单动态性较差的网站上，这些网站难以进行专业化，并且仅提供与当前页面相关的主题链接。
峰值表明对核心业务进行索引的难度。阿尔及利亚电话号码数据在示例中，我们看到了6级深度的峰值。加上曲线起步较晚，这表明链接结构很容易得到显著改进。

我们可以进行的另一种分析是曲线的形状。这将使我们了解网站的链接格式：

顶部曲线陡峭：表明网站结构良好，页面布局高效。大多数重要页面都位于早期层级。
尾部延伸：如果向下的曲线延伸到更深的层级，则意味着许多页面的机器人需要更长时间才能到达。这可能是由于内容组织不良或内部链接不足造成的。这通常是由于许多 URL 未完全与结构绑定所致：无休止的分页、不受控制的分类系统、非常旧的文章、论坛以及其他低效的结构。
上升阶梯：如果我们的曲线几乎呈现完美的上升阶梯状，每一层级的 URL 数量都在增加（并且呈指数级增长），这通常表明链接设计非常精良，确保了所有内容在几个层级下都能访问，并且在曲线末端不会因为爬取深度较高而留下任何内容。这并不意味着某一层级的 URL 无法优化，而是意味着将内容拉近搜索引擎收录距离的工作已经完成，而且做得还不错。
下降阶梯状，或初始饱和曲线：当几乎所有页面的排名都被人为地拉得很低时，很可能是因为 SEO 优化了链接，但这通常也表明内部链接过多，这也可能带来问题。单个页面上的链接过多会降低每个链接的重要性，并使搜索引擎机器人感到困惑。我们的经验是，即使在较低的抓取深度下，Google 通常也会难以处理每个页面超过 200 个链接，并且通常不会索引权重低于 100 个链接的页面。

分析每个级别发现的 URL 数量

我们计算每一级新 URL 的发现率。计算方法是：将某一级的 URL 数量除以上一级的 URL 数量：

例如：

在第 1 级，我们有 100 个 URL。
在第 2 级，我们发现了 1,000 个 URL。

这意味着每个一级页面平均会链接到 10 个新页面。十大必试的号码定位工具如果这个数字过高，尤其是在较深的层级，可能会导致机器人负载过重，并对抓取产生负面影响。

建议保持每页合理数量的链接，以方便机器人工作并提升用户体验。在 IKAUE，我们通常建议每页链接数量不要超过 100 个，但具体数量可能会因网站类型和规模而异。

交叉引用页面类型，了解 Google 各部分的存在情况

我们按类型（产品、类别、博客文章、信息页面等）细分 URL，并分析其在不同抓取深度级别的分布情况。这使我们能够：

识别代表性不足的部分：如果网站某些重要区域的爬取深度过深。例如，如果企业博客的爬取深度过高，则文章可能无法被有效爬取和索引。
检测特定问题：例如结构不良的分类法或产生不必要深度级别的无限分页。

有了这些信息，我们就可以做出明智的决定，决定将优化工作重点放在哪里。

抓取预算分析：交叉引用索引信号数据，重点关注对我们伤害最大的因素

这是我最喜欢的分析之一，也是我在审核中发现最有可操作性的分析之一。新闻美国通过比较抓取深度和页面可索引性，我们可以清楚地看到我们造成的抓取预算损失（Google 抓取的损失）。

这可以通过比较抓取深度和服务器响应代码（200、301、404 等）来实现，或者通过创建索引集群来告诉我们，由于向 Google 提供不可索引的 URL 而损失了多少抓取预算，这对我们造成的损失最大。

例如，在这张图中，我们可以看到，尽管我们讨论的是一个存在链接问题的网站，但实际上，其对第一级爬取的利用非常正确（几乎所有内容都显示为绿色：可索引，或显示为蓝色：已重定向）。第 4 级是 URL 的最高级别，但几乎所有 URL 都很糟糕：例如规范内容、索引概率低的内容等等。从第 4 级开始，我们确实看到了一些应该链接更好的可索引 URL（第 5 级或更高），但令我们非常担忧的爬取尾部（因为它达到了第 19 级）实际上是由不可索引的 URL 组成的，因此我们不必担心。

通过这个解释（是的，有点晦涩，但希望可以理解），您可以体会到这种分析有多么强大。

如何分析爬行深度曲线

分析每个级别发现的 URL 数量

交叉引用页面类型，了解 Google 各部分的存在情况

抓取预算分析：交叉引用索引信号数据，重点关注对我们伤害最大的因素

發佈留言取消回覆

分析每个级别发现的 URL 数量

交叉引用页面类型，了解 Google 各部分的存在情况

抓取预算分析：交叉引用索引信号数据，重点关注对我们伤害最大的因素

Related Posts

發佈留言 取消回覆

發佈留言取消回覆