Robots.txt文件的编写方法规则

Robots.txt 是一种用于网站的爬虫协议规范。󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹顾名思义，这个文件是一个放置在网站根目录下的文本文件，格式为.txt。它由一条或多条规则组成，用于禁止（或允许）特定抓取工具访问网站中的指定文件路径。󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹其主要作用是告知爬虫哪些内容可以抓取，哪些不可以。

协议规则（语法说明）

在看例子之前，先看看语法规则

文件格式：Robots.txt 必须是 ASCII 或 UTF-8 编码的󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹文本文件，不允许包含其他字符。
规则组成：文件由一条或多条󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹规则构成，每条规则由多条指令组成，每条指令占一行。
规则内容：每条规则包括适用对象（即用户代理）、代理可访问的目录或文件，以及代理无󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹法访问的目录或文件。
处理顺序：系统按从上到下的顺序处理规则，一个用户代理只能匹配一组规则（即与其匹配的首条最󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹具体的规则）。
默认假设：用户代理可以抓取所有未被 Disallow: 规则禁止的网页或目录。
大小写敏感：规则区分大小写。
文件数量：一个网站只能有一个 robots󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹.txt 文件。
主要关键词：

User-agent：网页抓取工具的名称，* 表示适用于所有爬虫。
Disallow：不应抓取的目录或网页。
Allow：应抓取的目录或网页（用于更细粒󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹度的控制）。
Sitemap：站点地图的位置。󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧（Robots.txt 规则的详细解释）

演示例子

以下配置禁止多种爬虫抓取网站内容：

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

以上截取自：robots协议_百度百科-文件写法

例如要禁止所有来自百󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹度的抓取，但允许百度图片搜索抓取 /image/ 目录，可以使用以下配置：

User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

禁止所有爬虫的配置如下：

User-agent: *
Disallow: /

使用模糊匹配禁止抓取以 .xls 结尾的文件：

Disallow: /*.xls$

未配置或如下配置代表全部允许：

User-agent: *
Disallow:

例如WordPress网站可以把规则写为如下：

User-agent: *
Disallow:/wp-admin/
Disallow:/author/
Disallow:/?s=*
Disallow:/oauth/*
Allow:/wp-content/uploads/
Allow:/wp-admin/admin-ajax.php
Sitemap:https://xxx.cn/wp-sitemap-taxonomies-post_tag-1.xml
Sitemap:https://xxx.cn/wp-sitemap-posts-post-1.xml

适用于全部搜索引擎

禁止爬取后台，用户中心，搜索，登录跳转

允许爬取图片目录󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹，wordpress的ajax加载的前端

允许访问网站地图

其它robots属性

1.Robot-version: 用来指定robot协议的版本号
例子：Robot-version: Version 2.0

2.Crawl-delay: 雅虎YST一个特定的扩展名，可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹以加入Crawl-delay:xx指示，其中，“XX”是指在crawler程序两次进入󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹站点时，以秒为单位的最低延时。
例子：Crawl-delay:1

3.Visit-time: 只有在visit-time指定的󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹时间段里,robot才可以访问指定的URL,否则不可访问.
例子：Visit-time: 0100-1300 #允许在凌晨1:00到13:00访问

4.Request-rate: 用来限制URL的读取频率
例子:
Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹访问
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹钟12次的频率进行访问

robots.txt文件放置位置

robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站时，首先会检查该网站中是否存在robots.txt这个文件，如果Spider找到这个文件，它就会根据这个󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹文件的内容，来确定它访问权限的范围。

正常都在根目录，例如wordpress是放在根目录，如果是框架类就不一定是根目录，而是运行目录，请询问程序开发者󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹。

利用html标签的方式页面单独设置是否允许抓取

在网站首页的 <head> 和 </head> 之间加入 <meta name="robots" content="noarchive">，以禁止搜索引擎抓取并显示网页快照。以下󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹是常用的代码示例：

<meta name="robots" content="index,follow">：可以抓取本页并继续索引其他链接。
<meta name="robots" content="noindex,follow">：不抓取本页，但可以继续索引其他链接。
<meta name="robots" content="index,nofollow">：可以抓取本页，但不索引其他链接。
<meta name="robots" content="noindex,nofollow">：不抓取本页，也不索引其他链接。

index指令告诉搜索机器人抓取该页面，noindex为否；

follow指令󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹表示搜索机器人可以沿着该页面上的链接继续抓取下去，nofollow为否；

还有未提到的archive是谷歌的󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹，可以限制谷歌搜素引擎是否保留网页快照；

Robots Meta标签的缺省值是index和follow，只有inktomi除外，对于它，缺省值是index、nofollow。

异常情况解决办法

网站已加 robots.txt，但仍能在百󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹度搜索中出现？

由󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹于搜索引擎索引数据库的更新需要时间，虽然 Baiduspider 停止访问您的网页，但现有索引可能需要数月才能清除。请检查 robots.txt 配置是否正确。如需紧急处理，可通过搜素引擎投诉平台反馈。

搜素引擎提示无法找到robots.txt文󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹件？

检查是否放置在网站运行根目录，自己尝试访问，若可以访问，检查󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹ssl是否为强制https，这个要关闭等待获取规则成功再关闭。

一、本站上的部份代码及教程来源于互联网，仅供网友学习交流。如有侵权，无意侵害您的权益，请发送邮件至zhangshen#ahap.cn或点击右侧联系我们，我们将尽快处理。
二、请勿将购买的资源教程转载或分享与他人！