我们如何控制索引?

Rate this post
您是否需要根据营销策略调整页面索引,但却不知如何控制?或者您只是想提升网站排名?下方列出了我们用于控制页面索引的工具。
索引指南和信号
  1. Googlebot 处理的是精确的(最好是友好的)URL,即文档,而不是内容。因此,这些 URL 之间的细微差异足以让蜘蛛程序认为它们是不同的。
  2. Google 机器人会抓取互联网并将其收集的信息存储 立陶宛 电话号码数据 在数据库中以生成索引,它们的目标之一是:发现 URL,其主要机制是链接跟踪。
  3. 第二个目标是将其在运行期间无法跟踪的链接的 URL 排队,因此它必须在该队列中对它们进行优先排序,当然,如果我们允许的话……

我们如何控制 URL 的索引?

既然我们已经了解了 Google 的工作原理,下一步就是了解有哪些机制可以控制我们网页的索引。但在深入探讨每个机制的细节之前,我们必须记住,以下列出的工具并非都具有相同的权重。

Google 会遵循一些准则,但也可能决定不遵循其他准则。因此,我们区分准则和索引信号。准则是我们相信 Google 会遵循的机制或工具,而索引信号对 Googlebot 的抓取和索引行为的影响则可能大或小。下图更清楚地展示了这一点。

 

让我们来谈谈每一个,并考虑它们对 Google 的优先性。

索引指南。

 

1.HTTP 状态。

非常简单(所以如果你想要更多信息,我们建议你,我们必须了解的是,我们感兴趣的互联网部分在 HTTP(或 HTTPS)协议下工作,这些规则定义了浏览器(Chrome、Safari、Firefox、Opera)必须如何请求 URL 以及网站托管服务器所需的一切。

当我们的浏览器向服务器发出这些请求时,它不仅会识别 URL,还会识别其他元素,例如 IP 和标头,其中包含元数据,以及发出请求的浏览器类型、是否访问过同一 URL、是否先前注 移动短信营销的力量 入过 Cookie、是否通过另一个 URL(引荐来源)到达此 URL 等信息。

服务器获取所有这些信息后,会返回此 URL 的内容,以及其他信息,例如其自身的 IP 地址和标头。在服务器标头中返回的所有数据中,我们最感兴趣的是HTTP 响应状态代码,即 HTTP 状态(您可以。

现在,就SEO和蜘蛛而言,最重要的是以下几点:

因此,就索引而言,我们感兴趣的是服务器返回状态码 200(除非我们将 URL 重定向到另一个 URL 以避免重复内容)。但是,我们如何才能查看页面的响应状态码呢?

专业提示:

  • 通过 Chrome 的网络视图(更多工具 > 开发者工具 > 网络),您可以看到您所在页面的状态。
  • 通过从 Chrome 网上应用店下载“重定向路径”扩展程序,您还可以熟悉每个页面的服务器响应代码。
  • 最后,使用像 Screamfrog 这样的爬虫,您可以从一个站点下载数百个 URL,并且除其他外,观察这些代码以检测问题。

使用这些工具,每一个都比上一个更先进,您可以检查页面状态是否存在任何问题,从而阻止它们被编入索引。

现在,从互联网的基础知识转向页面搜索引擎优化 (SEO),但仍然从 Google 在索引时遵循的那些准则来看,我们会发现……

 

2. robots.txt 文件。

除了查看外,您还有很多,但它实际上是我们用来允许或限制网页抓取的最重要工具之一。也就是说,robots.txt 文件可以禁止 Googlebot 或任何其他搜索引擎及其爬虫程序(robots.txt 将其标识为User-agent抓取部分(甚至全部)网页

它到底由什么组成?

  • robots.txt 文件是一个简单的文本文件,我们必须将其上传到域名的根目录。例如:
    yourdomain/robots.txt
  • 在其中,我们针对每个用户代理或所有带有 * 的用户代理建立了一系列禁止跟踪(Disallow)或允许跟踪(Allow)的规则,例如:

为什么我们想要在 robots.txt 中使用 Disallow?

  • 我们面临一个包含敏感信息的页面,我们不一定通过登录来阻止它。
  • 我们网站的某些区域包含重复内容,我们不想重定向这些区域,但我们也不想检测这些区域。
  • 我们刚刚上线了一个网站,希望机器人能够关注某些页面。新闻 美国 稍后我们会解锁那些我们感兴趣的页面,并将它们添加到机器人的抓取队列中。

robots.txt 可能会出现什么问题?

与所有事情一样,如果使用不当,使用 robots.txt 也会带来风险:

  • 我们必须小心,不要使用“Disallow: /”公式,这会阻止我们的整个网站被编入索引,这就是我们将其归类为危险做法的原因。
  • 这不是一个好的索引删除工具;它只会阻止蜘蛛。这意味着即使某个 URL 已被机器人拦截,几天后它仍可能出现在 SERP 中。
  • 如果您的 URL 具有外部链接,它不会阻止其被索引,因此它仍然可能出现在 SERP 中,并带有“此页面没有可用信息”之类的描述。

专业提示

  • 通过从 Chrome 网上应用店下载“Robots Exclusion Checker”扩展程序,您可以查看访问的每个页面,您的域的 robots.txt 文件是否阻止了 Google 抓取。

 

3. Robots 元标签。

尽管您还,但如果您不熟悉它们,您应该知道“index/noindex”和“follow/nofollow”是用于指导搜索引擎如何处理特定页面的指令,并且它们始终遵循这些指令。

它到底由什么组成?

Robots 元标记就像网页 HTML 代码中的一种交通信号灯,它告诉搜索引擎机器人是应该停止并阅读您的内容,还是直接跳过。更专业的术语是,当机器人抓取您的网页时,它们会从 HTTP 和/或 HTML 标头中提取元数据,以确定它们是否被阻止索引和/或抓取。因此,它们在数据库中存储网页信息的方式取决于这些指令(如果有)。

  • index/noindex:决定页面是否应被收录到搜索引擎索引中。“index”标签相当于给页面开绿灯,允许其出现在搜索结果中;而“noindex”则完全禁止该页面出现在搜索结果中。
  • 关注/不关注:决定搜索引擎是否应该关注页面上的链接,即是否应该将其添加到抓取队列中。“关注”鼓励搜索引擎机器人探索它们找到的链接,从而扩展发现网络;而“不关注”则指示它们忽略这些链接,就像在说“这里没什么可看的”。

这些标签可以放在 X-Robots-Tag HTTP 标头中(尽管这并不常见),如本例所示:

在这些示例中,我们告诉搜索引擎不要索引该页面,而是跟踪其包含的链接。这些标签会显著影响页面在海量互联网资源库中的可见性和排名。因此,应谨慎使用它们。

您还应该了解什么?

如果这些值不存在,则所有内容都将为默认值“index,follow”。出于同样的原因,如果只有一个值被标记为负值,则省略的值将始终为正值。

专业提示

  • 我们可以通过页面的源代码看到页面HTTP中的HTML标签和标记。
  • 相同的“Robots Exclusion Checker”扩展还为您提供有关 HTML 和 HTTP robots 元标记的信息。

索引信号。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端