搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。
注意:网站的robots.txt文件一定要存放在网站的根目录。
robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /
禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/