robots.txt是网站和蜘蛛的沟通协议
robots.txt放在网站根目录,告诉百度蜘蛛哪些页面可以抓取、哪些不可以。正确配置能帮助百度高效抓取,把抓取预算用在重要页面上。错误配置可能导致重要页面不被收录、或不重要的页面被大量抓取浪费资源。
基本语法和常见配置
User-agent指定规则适用的蜘蛛,Disallow指定不允许抓取的路径,Allow指定允许的路径,Sitemap指定sitemap位置。允许所有:User-agent: * 换行 Allow: /。屏蔽目录:Disallow: /admin/。添加sitemap:Sitemap: https://example.com/sitemap.xml。 E-A-T优化
应该屏蔽的内容
后台管理目录、用户个人中心、站内搜索结果页、临时页面、重复内容页面、不重要的标签页和分页。不建议屏蔽CSS和JS文件,百度需要抓取才能正确渲染页面。 内链优化
常见错误
Disallow写错路径导致重要页面被屏蔽、用中文路径(不支持)、robots.txt不存在(默认允许所有但最好显式创建)、屏蔽了CSS和JS(影响百度渲染)。robots.txt只是君子协定,敏感信息不要放在公开目录。 响应式网站模板
验证和测试
配置完用百度搜索资源平台的robots检测工具测试。修改后百度不会立即生效,等下次蜘蛛来抓取时才读取新配置。修改前先备份原文件。
robots.txt看似简单但容易出错。花几分钟认真检查配置,能避免很多不必要的SEO问题。