权重域名

已备案域名,老域名交易,高权重域名购买,百度权重域名出售,权重域名买卖,万网已备案老域名注册查询抢注转让,买老域名,二手老域名,鹰潭网站建设

如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?

作者:zhushican 发布:2014-08-19 分类:建站教程 阅读: 次 0条评论

搜索引擎来网站抓取内容的时候,首先会访问你网站目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。

注意:网站的robots.txt文件一定要存放在网站的根目录。

robots.txt文件举例说明
  禁止所有搜索引擎访问网站的任何内容
  User-agent: *
  Disallow: /

  禁止所有搜索引擎抓取某些特定目录
  User-agent: *
  Disallow: /目录名1/
  Disallow: /目录名2/
  Disallow: /目录名3/

  允许访问特定目录中的部分url
  User-agent: *
  Allow: /158
  Allow: /joke

  禁止访问网站中所有的动态页面
  User-agent: *
  Disallow: /*?*
  

仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片
  User-agent: Baiduspider
  Allow: /*.gif$
  Disallow: /*.jpg$
  Disallow: /*.jpeg$
  Disallow: /*.png$
  Disallow: /*.bmp$

  1.屏蔽404页面
  Disallow: /404.html

  2.屏蔽死链
  原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。
  Disallow: /158/

  3.屏蔽动态的相似页面
  假设以下这两个链接,内容其实差不多。
  /XXX?123
  /123.html
  我们要屏掉/XXX?123 页面,代码如下:
  Disallow: /XXX?

  4.告诉搜索引擎你的sitemap.xml地址
  具体代码如下:
  Sitemap: 你的sitemap地址

谷歌或百度官方提供的robots.txt使用指南学习:
百度:http://www.baidu.com/search/robots.html
谷歌:http://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-CN 

除非注明,本站所有文章均为 zhushican 原创,转载请注明出处! 标签:robots.txt  搜索引擎抓取  特定目录  
« 上一篇下一篇 »

您可能还会对这些文章感兴趣!

如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?:目前有0条评论