我们如何控制索引？|萨玛旅游

Rate this post

您是否需要根据营销策略调整页面索引，但却不知如何控制？或者您只是想提升网站排名？下方列出了我们用于控制页面索引的工具。

Googlebot 处理的是精确的（最好是友好的）URL，即文档，而不是内容。因此，这些 URL 之间的细微差异足以让蜘蛛程序认为它们是不同的。
Google 机器人会抓取互联网并将其收集的信息存储立陶宛电话号码数据在数据库中以生成索引，它们的目标之一是：发现 URL，其主要机制是链接跟踪。
第二个目标是将其在运行期间无法跟踪的链接的 URL 排队，因此它必须在该队列中对它们进行优先排序，当然，如果我们允许的话……

我们如何控制 URL 的索引？

既然我们已经了解了 Google 的工作原理，下一步就是了解有哪些机制可以控制我们网页的索引。但在深入探讨每个机制的细节之前，我们必须记住，以下列出的工具并非都具有相同的权重。

Google 会遵循一些准则，但也可能决定不遵循其他准则。因此，我们区分准则和索引信号。准则是我们相信 Google 会遵循的机制或工具，而索引信号对 Googlebot 的抓取和索引行为的影响则可能大或小。下图更清楚地展示了这一点。

让我们来谈谈每一个，并考虑它们对 Google 的优先性。

索引指南。

1.HTTP 状态。

非常简单（所以如果你想要更多信息，我们建议你，我们必须了解的是，我们感兴趣的互联网部分在 HTTP（或 HTTPS）协议下工作，这些规则定义了浏览器（Chrome、Safari、Firefox、Opera）必须如何请求 URL 以及网站托管服务器所需的一切。

当我们的浏览器向服务器发出这些请求时，它不仅会识别 URL，还会识别其他元素，例如 IP 和标头，其中包含元数据，以及发出请求的浏览器类型、是否访问过同一 URL、是否先前注移动短信营销的力量入过 Cookie、是否通过另一个 URL（引荐来源）到达此 URL 等信息。

服务器获取所有这些信息后，会返回此 URL 的内容，以及其他信息，例如其自身的 IP 地址和标头。在服务器标头中返回的所有数据中，我们最感兴趣的是HTTP 响应状态代码，即 HTTP 状态（您可以。

现在，就SEO和蜘蛛而言，最重要的是以下几点：

因此，就索引而言，我们感兴趣的是服务器返回状态码 200（除非我们将 URL 重定向到另一个 URL 以避免重复内容）。但是，我们如何才能查看页面的响应状态码呢？

专业提示：

通过 Chrome 的网络视图（更多工具 > 开发者工具 > 网络），您可以看到您所在页面的状态。
通过从 Chrome 网上应用店下载“重定向路径”扩展程序，您还可以熟悉每个页面的服务器响应代码。
最后，使用像 Screamfrog 这样的爬虫，您可以从一个站点下载数百个 URL，并且除其他外，观察这些代码以检测问题。

使用这些工具，每一个都比上一个更先进，您可以检查页面状态是否存在任何问题，从而阻止它们被编入索引。

现在，从互联网的基础知识转向页面搜索引擎优化 (SEO)，但仍然从 Google 在索引时遵循的那些准则来看，我们会发现……

2. robots.txt 文件。

除了查看外，您还有很多，但它实际上是我们用来允许或限制网页抓取的最重要工具之一。也就是说，robots.txt 文件可以禁止 Googlebot 或任何其他搜索引擎及其爬虫程序（robots.txt 将其标识为User-agent）抓取部分（甚至全部）网页。

它到底由什么组成？

robots.txt 文件是一个简单的文本文件，我们必须将其上传到域名的根目录。例如：
yourdomain/robots.txt
在其中，我们针对每个用户代理或所有带有 * 的用户代理建立了一系列禁止跟踪（Disallow）或允许跟踪（Allow）的规则，例如：

为什么我们想要在 robots.txt 中使用 Disallow？

我们面临一个包含敏感信息的页面，我们不一定通过登录来阻止它。
我们网站的某些区域包含重复内容，我们不想重定向这些区域，但我们也不想检测这些区域。
我们刚刚上线了一个网站，希望机器人能够关注某些页面。新闻美国稍后我们会解锁那些我们感兴趣的页面，并将它们添加到机器人的抓取队列中。

robots.txt 可能会出现什么问题？

与所有事情一样，如果使用不当，使用 robots.txt 也会带来风险：

我们必须小心，不要使用“Disallow: /”公式，这会阻止我们的整个网站被编入索引，这就是我们将其归类为危险做法的原因。
这不是一个好的索引删除工具；它只会阻止蜘蛛。这意味着即使某个 URL 已被机器人拦截，几天后它仍可能出现在 SERP 中。
如果您的 URL 具有外部链接，它不会阻止其被索引，因此它仍然可能出现在 SERP 中，并带有“此页面没有可用信息”之类的描述。

专业提示

通过从 Chrome 网上应用店下载“Robots Exclusion Checker”扩展程序，您可以查看访问的每个页面，您的域的 robots.txt 文件是否阻止了 Google 抓取。

3. Robots 元标签。

尽管您还，但如果您不熟悉它们，您应该知道“index/noindex”和“follow/nofollow”是用于指导搜索引擎如何处理特定页面的指令，并且它们始终遵循这些指令。

它到底由什么组成？

Robots 元标记就像网页 HTML 代码中的一种交通信号灯，它告诉搜索引擎机器人是应该停止并阅读您的内容，还是直接跳过。更专业的术语是，当机器人抓取您的网页时，它们会从 HTTP 和/或 HTML 标头中提取元数据，以确定它们是否被阻止索引和/或抓取。因此，它们在数据库中存储网页信息的方式取决于这些指令（如果有）。

index/noindex：决定页面是否应被收录到搜索引擎索引中。“index”标签相当于给页面开绿灯，允许其出现在搜索结果中；而“noindex”则完全禁止该页面出现在搜索结果中。
关注/不关注：决定搜索引擎是否应该关注页面上的链接，即是否应该将其添加到抓取队列中。“关注”鼓励搜索引擎机器人探索它们找到的链接，从而扩展发现网络；而“不关注”则指示它们忽略这些链接，就像在说“这里没什么可看的”。

这些标签可以放在 X-Robots-Tag HTTP 标头中（尽管这并不常见），如本例所示：

在这些示例中，我们告诉搜索引擎不要索引该页面，而是跟踪其包含的链接。这些标签会显著影响页面在海量互联网资源库中的可见性和排名。因此，应谨慎使用它们。

您还应该了解什么？

如果这些值不存在，则所有内容都将为默认值“index,follow”。出于同样的原因，如果只有一个值被标记为负值，则省略的值将始终为正值。

专业提示

我们可以通过页面的源代码看到页面HTTP中的HTML标签和标记。
相同的“Robots Exclusion Checker”扩展还为您提供有关 HTML 和 HTTP robots 元标记的信息。

我们如何控制 URL 的索引？

索引指南。

1.HTTP 状态。

2. robots.txt 文件。

3. Robots 元标签。

索引信号。

Related Posts

發佈留言 取消回覆

發佈留言取消回覆