什么是Robots协议?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议的功能是用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取,绝大多数搜索引擎是遵守协议的。
robots协议的写法:
User-agent: *
Disallow: /
禁止所有搜索引擎抓取所有文件
User-agent表示搜索引擎,User-agent: Baiduspider表示百度搜索引擎,*是通配符。
Disallow表示禁止访问文件,allow表示允许访问文件,/表示根目录下所有文件都不可访问。
还有比较常用的*?*表示所有包含?的网址,这对于动态页面的屏蔽有想到好的效果。
尽管robots.txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots.txt文件,建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别。