Robots.txt文件的编写方法规则

Robots.txt 是一种用于网站的爬虫协议规范。󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹顾名思义,这个文件是一个放置在网站根目录下的文本文件,格式为.txt。它由一条或多条规则组成,用于禁止(或允许)特定抓取工具访问网站中的指定文件路径。󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹其主要作用是告知爬虫哪些内容可以抓取,哪些不可以。

协议规则(语法说明)

在看例子之前,先看看语法规则

  1. 文件格式Robots.txt 必须是 ASCII 或 UTF-8 编码的󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹文本文件,不允许包含其他字符。
  2. 规则组成:文件由一条或多条󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹规则构成,每条规则由多条指令组成,每条指令占一行。
  3. 规则内容:每条规则包括适用对象(即用户代理)、代理可访问的目录或文件,以及代理无󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹法访问的目录或文件。
  4. 处理顺序:系统按从上到下的顺序处理规则,一个用户代理只能匹配一组规则(即与其匹配的首条最󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹具体的规则)。
  5. 默认假设:用户代理可以抓取所有未被 Disallow: 规则禁止的网页或目录。
  6. 大小写敏感:规则区分大小写。
  7. 文件数量:一个网站只能有一个 robots󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹.txt 文件。
  8. 主要关键词
  • User-agent:网页抓取工具的名称,* 表示适用于所有爬虫。
  • Disallow:不应抓取的目录或网页。
  • Allow:应抓取的目录或网页(用于更细粒󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹度的控制)。
  • Sitemap:站点地图的位置。󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧(Robots.txt 规则的详细解释)

演示例子

以下配置禁止多种爬虫抓取网站内容:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

以上截取自:robots协议_百度百科-文件写法

例如要禁止所有来自百󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹度的抓取,但允许百度图片搜索抓取 /image/ 目录,可以使用以下配置:

User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

禁止所有爬虫的配置如下:

User-agent: *
Disallow: /

使用模糊匹配禁止抓取以 .xls 结尾的文件:

Disallow: /*.xls$

未配置或如下配置代表全部允许:

User-agent: *
Disallow:

例如WordPress网站可以把规则写为如下:

User-agent: *
Disallow:/wp-admin/
Disallow:/author/
Disallow:/?s=*
Disallow:/oauth/*
Allow:/wp-content/uploads/
Allow:/wp-admin/admin-ajax.php
Sitemap:https://xxx.cn/wp-sitemap-taxonomies-post_tag-1.xml
Sitemap:https://xxx.cn/wp-sitemap-posts-post-1.xml

适用于全部搜索引擎

禁止爬取后台,用户中心,搜索,登录跳转

允许爬取图片目录󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹,wordpress的ajax加载的前端

允许访问网站地图

其它robots属性

1.Robot-version: 用来指定robot协议的版本号
例子:Robot-version: Version 2.0

2.Crawl-delay: 雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹站点时,以秒为单位的最低延时。
例子:Crawl-delay:1

3.Visit-time: 只有在visit-time指定的󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹时间段里,robot才可以访问指定的URL,否则不可访问.
例子:Visit-time: 0100-1300 #允许在凌晨1:00到13:00访问

4.Request-rate: 用来限制URL的读取频率
例子:
Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹访问
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹钟12次的频率进行访问

robots.txt文件放置位置

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站时,首先会检查该网站中是否存在robots.txt这个文件,如果Spider找到这个文件,它就会根据这个󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹文件的内容,来确定它访问权限的范围。

正常都在根目录,例如wordpress是放在根目录,如果是框架类就不一定是根目录,而是运行目录,请询问程序开发者󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹。

利用html标签的方式页面单独设置是否允许抓取

在网站首页的 <head> 和 </head> 之间加入 <meta name="robots" content="noarchive">,以禁止搜索引擎抓取并显示网页快照。以下󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹是常用的代码示例:

  • <meta name="robots" content="index,follow">:可以抓取本页并继续索引其他链接。
  • <meta name="robots" content="noindex,follow">:不抓取本页,但可以继续索引其他链接。
  • <meta name="robots" content="index,nofollow">:可以抓取本页,但不索引其他链接。
  • <meta name="robots" content="noindex,nofollow">:不抓取本页,也不索引其他链接。

index指令告诉搜索机器人抓取该页面,noindex为否;

follow指令󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹表示搜索机器人可以沿着该页面上的链接继续抓取下去,nofollow为否;

还有未提到的archive是谷歌的󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹,可以限制谷歌搜素引擎是否保留网页快照;

Robots Meta标签的缺省值是indexfollow,只有inktomi除外,对于它,缺省值是indexnofollow

异常情况解决办法

网站已加 robots.txt,但仍能在百󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹度搜索中出现?

由󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹于搜索引擎索引数据库的更新需要时间,虽然 Baiduspider 停止访问您的网页,但现有索引可能需要数月才能清除。请检查 robots.txt 配置是否正确。如需紧急处理,可通过搜素引擎投诉平台反馈。

搜素引擎提示无法找到robots.txt文󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹件?

检查是否放置在网站运行根目录,自己尝试访问,若可以访问,检查󠄹󠅀󠄪󠄡󠄡󠄢󠄞󠄢󠄠󠄞󠄢󠄥󠄥󠄞󠄡󠄢󠄦󠅬󠅅󠅃󠄵󠅂󠄪󠅗󠅥󠅕󠅣󠅤󠅬󠅄󠄹󠄽󠄵󠄪󠄢󠄠󠄢󠄦󠄝󠄠󠄡󠄝󠄠󠄧󠄐󠄠󠄠󠄪󠄢󠄠󠄪󠄢󠄧󠅬󠇗󠅾󠅻󠇕󠅵󠅸󠇗󠆄󠆏󠇗󠆜󠆄󠇘󠆞󠆠󠄐󠇗󠅹󠅸󠇖󠆍󠅳󠇖󠅹󠅰󠇖󠆌󠅹ssl是否为强制https,这个要关闭等待获取规则成功再关闭。

一、本站上的部份代码及教程来源于互联网,仅供网友学习交流。如有侵权,无意侵害您的权益,请发送邮件至zhangshen#ahap.cn或点击右侧 联系我们,我们将尽快处理。
二、请勿将购买的资源教程转载或分享与他人!

给TA充电
共{{data.count}}人
人已充电
默认

新版NTQQ跳转加好友临时会话接口

2025-10-13 9:27:42

默认

天气之子许愿晴天-打赏PHP源码

2026-1-7 1:35:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索