robots漫游器元标记是什么？、规范书写 data-nosnippet 和 X-Robots-Tag

漫游器元标记robots是什么？

利用好漫游器元标记robots，让你的SEO事半功倍，网站优化Google收录必备。漫游器元标记是通过网页级设置来控制单个网页是否被编入索引并显示在搜索结果中。漫游器元标记是告诉搜索引擎要遵循什么以及不遵循什么的标签。

漫游器元标记放在上面地方？

漫游器元标记robots放在网页的head部分！

漫游器元标记的写法

该标记是在告诉所有的搜索引擎不要将该网页编入索引，要完全阻止该网页出现在搜索结果中。

规范书写data-nosnippet 和 X-Robots-Tag

如何使用网页级和文本级设置调整 Google 在搜索结果中呈现内容的方式。您可以向 HTML 网页或 HTTP 标头中添加元标记，从而指定网页级设置。您可以在网页中的 HTML 元素上使用 data-nosnippet 属性，从而指定文本级设置。

请注意，只有在抓取工具可以访问包含这些设置的网页时，系统才会读取和遵循这些设置。

标记或指令适用于搜索引擎抓取工具。如需屏蔽非搜索抓取工具（例如 AdsBot-Google），您可能需要添加针对具体抓取工具的指令。例如：

使用漫游器元标记

借助漫游器元标记，您可以使用精细的网页级设置，控制各个网页被编入索引并在 Google 搜索结果中显示给用户的方式。请将漫游器元标记放在给定网页的 head 部分。

在本示例中，漫游器元标记会指示搜索引擎不要在搜索结果中显示相应网页。name 属性的值 (robots) 指定此指令适用于所有抓取工具。如需针对特定的抓取工具，请将 name 属性的 robots 值替换为这个抓取工具的名称。具体的抓取工具也称为用户代理（抓取工具使用其用户代理请求网页）。Google 标准网页抓取工具的用户代理名称为 Googlebot。如果您只想阻止 Googlebot 将您的网页编入索引，请按如下所示更新标记：

这个标记现在会明确地指示 Google 不要在 Google 搜索结果中显示此网页。name 和 content 属性都不区分大小写。

搜索引擎可能会出于不同目的而使用不同的抓取工具。有关详情，请参阅 Google 抓取工具完整列表。例如，如果想让某个网页显示在 Google 的网页搜索结果中，但不显示在 Google 新闻中，可以使用以下元标记：

要分别指定多个抓取工具，请使用多个漫游器元标记：

如需禁止将非 HTML 资源（例如 PDF 文件、视频文件或图片文件）编入索引，请改用 X-Robots-Tag 响应标头。

使用 X-Robots-Tag HTTP 标头
X-Robots-Tag 可用作指定网址的 HTTP 标头响应中的一个元素。可在漫游器元标记中使用的任何指令均可被指定为 X-Robots-Tag。下面是一个 HTTP 响应示例，它含有一个指示抓取工具不要将某一网页编入索引的 X-Robots-Tag：

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

您可以在 HTTP 响应中组合使用多个 X-Robots-Tag 标头，也可以指定一系列以英文逗号分隔的指令。下面这个示例 HTTP 标头响应组合使用了 noarchive X-Robots-Tag 与 unavailable_after X-Robots-Tag。

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag 也可以在指令前面指定用户代理。例如，下面这组 X-Robots-Tag HTTP 标头可以用于有条件地允许某一网页在不同搜索引擎的搜索结果中显示：

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

指令如果没有指定用户代理，那么对所有抓取工具都有效。HTTP 标头、用户代理名称和指定的值都不区分大小写。

有冲突的漫游器指令：如果漫游器指令存在冲突，那么系统会采用限制较为严格的指令。例如，如果某个网页同时包含 max-snippet:50 和 nosnippet 指令，那么系统会采用 nosnippet 指令。

有效的索引编制指令和内容显示指令

您可以将以下指令与漫游器元标记和 X-Robots-Tag 搭配使用，从而控制索引编制和摘要显示。在搜索结果中，摘要是一个简短的文本摘录，它表明了文档与用户查询的相关性。下表中列出了 Google 支持的所有指令及其各自的含义。每个值代表一个特定的指令。您可以将多个指令合并为一个逗号分隔列表或使用多个元标记。这些指令不区分大小写。

如何处理合并的索引编制指令和内容显示指令

您可以将多个以英文逗号分隔的漫游器元标记指令合并起来或使用多个元标记，创建一条包含多个指令的命令。下面是一个漫游器元标记示例，它会指示网页抓取工具不要将该网页编入索引，也不要抓取该网页上的任何链接：

逗号分隔表

多个元标记

下面的示例会将文本摘要长度限制为 20 个字符，并允许大图片预览：

如果您指定了多个抓取工具，并且不同的工具对应不同的指令，那么搜索引擎会综合使用所有的否定指令。例如：

Googlebot 在抓取包含这些元标记的网页时会将其视为拥有 noindex, nofollow 指令。

使用 data-nosnippet HTML 属性

您可以指定不要使用 HTML 网页的哪些文字部分生成摘要。您可以使用 span、div 和 section 元素中的 data-nosnippet HTML 属性，在 HTML 元素级别实现这一点。data-nosnippet 被视为布尔属性。与所有布尔属性一样，指定的任何值都将被忽略。为了确保机器能读懂，HTML 部分必须是有效的 HTML，并且所有标记都有对应的结束标记。

Google 通常会渲染网页，以便将它编入索引，但无法保证一定会渲染。因此，在渲染之前和之后都可能会提取 data-nosnippet。为避免渲染的不确定性，请不要通过 JavaScript 添加或移除现有节点的 data-nosnippet 属性。通过 JavaScript 添加 DOM 元素时，请在最初向网页的 DOM 添加该元素时根据需要包含 data-nosnippet 属性。如果使用了自定义元素，并且您需要使用 data-nosnippet，请通过 div、span 或 section 元素封装或渲染它们。

使用结构化数据

漫游器元标记会控制 Google 自动从网页中提取并显示为搜索结果的内容量。但是，很多发布商也使用 schema.org 结构化数据为搜索呈现提供具体信息。漫游器元标记限制不会影响该结构化数据的使用，但 article.description 和为其他创意作品指定的结构化数据的 description 值除外。如需根据这些 description 值指定预览的最大长度，请使用 max-snippet 漫游器元标记。例如，即使文本预览会受到限制，网页上的 recipe 结构化数据也可以包含在食谱轮播界面中。您可以使用 max-snippet 限制文本预览的长度，但是在使用结构化数据提供信息以获得富媒体搜索结果时，系统不会使用此漫游器元标记。

如需管理在网页中使用结构化数据的方式，请修改结构化数据类型和值本身，添加或移除信息，以便只提供您想提供的数据。另外还请注意，在 data-nosnippet 元素内声明结构化数据后，这些数据仍然可以用于显示搜索结果。

实际添加 X-Robots-Tag

您可以通过网站的网络服务器软件的配置文件将 X-Robots-Tag 添加到网站的 HTTP 响应中。例如，在基于 Apache 的网络服务器上，您可以使用 .htaccess 和 httpd.conf 文件。在 HTTP 响应中使用 X-Robots-Tag 的好处是，您可以指定要应用于整个网站的抓取指令。系统支持正则表达式，因此带来了很高的灵活性。

例如，如需在整个网站的所有 .PDF 文件的 HTTP 响应中添加 noindex, nofollow X-Robots-Tag，请将以下代码段添加到 Apache 型网站的根 .htaccess 文件或 httpd.conf 文件中，或者添加到 NGINX 型网站的 .conf 文件中。

Apache

<Files ~ "\.pdf$" >
Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX

location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, nofollow";
}

对于无法在 HTML 中使用漫游器元标记的非 HTML 文件（如图片文件），您可以使用 X-Robots-Tag。下面的示例说明了如何针对整个网站上的图片文件（.png、.jpeg、.jpg、.gif）添加 noindex X-Robots-Tag 指令：

Apache

<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

NGINX

location ~* \.(png|jpe?g|gif)$ {
add_header X-Robots-Tag "noindex";
}

您还可以为单个静态文件设置 X-Robots-Tag 标头：

Apache

# the htaccess file must be placed in the directory of the matched file.
<Files "unicorn.pdf">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX

location = /secrets/unicorn.pdf {
add_header X-Robots-Tag "noindex, nofollow";
}

合并使用 robots.txt 指令与索引编制及内容显示指令

只有当网址被抓取时，漫游器元标记和 X-Robots-Tag HTTP 标头才会被抓取工具发现。如果您通过 robots.txt 文件禁止抓取某一网页，那么抓取工具就不会找到任何关于索引编制/内容显示指令的信息，因此会忽略这些信息。如果必须遵循索引编制/内容显示指令，那么您不能禁止抓取工具抓取包含这些指令的网址。

原文链接：https://developers.google.com/search/docs/advanced/robots/robots_meta_tag?hl=zh-cn