Robots.txt最佳实践:
- • 文件必须放在网站根目录下
- • 文件名必须是 robots.txt(小写)
- • 每个User-agent后面必须有对应的规则
- • Sitemap指令应该使用完整的URL
- • 使用#符号添加注释
- • 区分大小写,路径要准确
常用指令说明:
基本指令:
User-agent: *
- 适用于所有爬虫Disallow: /path/
- 禁止访问路径Allow: /path/
- 允许访问路径Sitemap: URL
- 指定站点地图
示例用法:
Disallow: /
- 禁止所有Disallow:
- 允许所有Disallow: *.pdf
- 禁止PDF文件# 注释
- 添加说明