为了确保 Google 了解我们想要排名的所有内容,SEO 人员使用各种工具和技术,这些工具和技术源于了解 Googlebot(Google 用于抓取的机器人)的工作原理并模仿它。
因此,SEO 人员使用名为“爬虫”的工具来模拟搜索引擎机器人的行为。这些爬虫的工作方式与 Google 在互联网上搜索内容的方式非常相似。 爬虫使我们能够从机器人的角度分析我们的网站,识别抓取、索引和内部链接方面的问题。这 9 个错误会毁掉你的谷歌商店下载安装包 通过使用这些工具,我们可以基于具体的数据做出决策,并提高网站在搜索结果中的曝光度。
一些最著名的爬虫包括 Screaming Frog(目前使用最广泛的)、SiteBulb、OnCrawl 和 Botify。一些机构(包括 IKAUE)甚至随着时间的推移开发了自己的爬虫,使我们能够以更先进的方式工作。
爬虫能够追踪您网站上所需的所有 URL,并为您提供其标题、H1、响应代码、相似度百分比以及出站和入站链接。学习理解这些爬虫提供的数据并利用这些数据制定策略是技术 SEO 的重要组成部分。
在本文中,我们将讨论可以从爬虫中提取的一个数据点:爬取深度(根据工具的不同,它可能有不同的名称)。这些数据最初只是一个简单的指标,用于衡量你的网站是如何被爬取的,但在实践中,它已经成为我们日常SEO工作中不可或缺的元素之一。
什么是爬行深度?
这些数据究竟是如何运作的?
抓取深度是一个指标,它根据抓取工具查找相应内容所需的步骤数,对网站上的每个 URL 进行分类。要理解这一点,我们首先必须了解抓取工具的工作原理。
想象一下,爬虫就像一个浏览器,它从你网站的主页开始它的旅程。从那里开始,它会跟踪在该页面上找到的所有链接,并将它们添加到要爬取的 URL 列表中。成功是什么样的? 每次爬虫跟踪链接并访问新页面时,它都会重复这个过程:分析内容并收集所有链接以继续它的旅程。
该过程按深度层次构建:
- 爬行深度 0:爬行的初始页面(通常是主页)。
- 爬行深度 1:直接从主页链接的页面。
- 爬行深度 2:与爬行深度 1 相关的页面链接的页面。
- 等等。
这就像测量从主页到特定 URL 所需的最少点击次数。这就是我们称之为“深度”的原因;抓取深度越高,内容在网站结构中的位置就越深。
例如,如果用户进入主页并需要点击三次才能到达特定页面,则该页面的抓取深度为 3。
我们为何如此感兴趣
搜索引擎抓取您网站的时间和资源有限,这被称为抓取预算。页面越深(抓取深度越大),抓取频率就越低,甚至根本不会抓取。
遗憾的是,如果您网站最重要的页面抓取深度过高,则可能会危及它们的索引(进而影响其排名)。较低的抓取深度意味着搜索引擎机器人更有可能定期找到并抓取您的页面,而过高的抓取深度则很可能会被搜索引擎机器人忽略。
此外,从用户的角度来看,只需点击几下即可获得相关内容的网站结构可以改善浏览体验并提高转化率。
SEO 如何使用它
SEO 专业人士会使用“抓取深度”来衡量 Google 抓取工具无法找到某条内容的可能性。抓取深度较低的网址不会出现任何问题,而随着抓取深度的增加,网址被排除的风险也会随之增加。因此,有三种典型的 SEO 活动都以查看抓取深度作为起点:
- 检测存在被排除抓取风险的 URL:我们识别那些太 新闻 美国 深且由于抓取预算限制而机器人可能无法到达的页面。
- 优化内部链接:我们调整内部链接以减少重要页面的深度,确保机器人和用户都能更轻松地访问它们。
- 改进网站架构:我们重组了网站的导航和层次结构,使关键内容更易于访问和查找。
底线:建议最相关的页面只需从主页点击几下即可访问,以最大限度地提高其在搜索引擎中的可见性并改善用户体验。
这项指标的价值在于:它虽然简单,却能帮助用户对网站进行非常深入的操作。但仅仅依靠抓取深度来进行 SEO 却是一个很大的错误:
注意:使用爬行深度作为爬行概率的唯一指标会出现什么问题?
尽管爬行深度很有用,但它也有一些局限性和挑战,我们必须解决这些局限性和挑战才能正确地解释它。
Google 不仅仅通过其主页访问网站。
请记住,我们使用的抓取工具通常从首页开始抓取,但Google 可以通过任何外部链接访问您的网站。这意味着,如果从首页抓取的页面内容很深,而 Google 又收到来自其他网站的链接,那么这些页面就很容易被访问。
例如,假设您在博客上发布了一篇文章,该文章已被其他权威网站链接。即使您的内部结构的抓取深度为 5,Google 也可以直接通过这些外部链接访问该文章,而无需经过中间页面。
一个常见的错误是,仅仅依赖从首页计算出的抓取深度,而不考虑这些替代入口点。这可能会导致搜索引擎误解您的网页的实际可访问性。