Robots协议与网站建设-seo-网站优化
网站建造与Robots协议
Robots协议(也称为爬虫协议、机器人协议等)是指网站经过Robots协议告诉搜索引擎能够抓取哪些页面,哪些页面不能抓取。网站建造过程中,要注意Robots协议的运用,防止误用导致屏蔽页面形成网站不录入。
文件写法
User-agent:*这儿的*代表的一切的搜索引擎品种,*是一个通配符,User-agent:BaiduSpider规则百度蜘蛛
Disallow:该项用于描绘不期望被抓取和索引的一个URL
Disallow:/admin/这儿界说是制止爬寻admin目录下面的目录
Disallow:/require/这儿界说是制止爬寻require目录下面的目录
Disallow:/ABC/这儿界说是制止爬寻ABC目录下面的目录
Disallow:/cgi-bin/*.htm制止拜访/cgi-bin/目录下的一切以\”.htm\”为后缀的URL(包括子目录)。
Disallow:/*?*制止拜访网站中一切包括问号(?)的网址
Disallow:/.jpg$制止抓取网页一切的.jpg格局的图片
Disallow:/ab/adc.html制止爬取ab文件夹下面的adc.html文件。
Allow:/cgi-bin/这儿界说是答应爬寻cgi-bin目录下面的目录
Allow:/tmp这儿界说是答应爬寻tmp的整个目录
Allow:.htm$仅答应拜访以\”.htm\”为后缀的URL。
Allow:.gif$答应抓取网页和gif格局图片
查询方法:域名/robots.txt
(1)制止一切搜索引擎拜访网站的任何部分。
User-agent:*
Disallow:/
(2)答应一切的robots拜访,无任何约束。
Disallow:
或许
Allow:/
Disallow和Allow能够一起运用,例如,需求阻拦子目录中的某一个页面之外的其他一切页面,能够这么写:
Disallow:/AAA/
Allow:/AAA/index.html
这样说明晰一切蜘蛛只能够抓取/AAA/index.html的页面,而/AAA/文件夹的其他页面则不能抓取。