内容类型
教程
教程
2026-03-21这页回答什么
如果你希望公开页面继续进入搜索与 AI 引用面,就应该允许合适的 crawler 抓取公开内容,把更严格的限制留给私有、交易或训练敏感的路径。
教程
1. 改 robots 之前先准备
先把页面边界列清楚,再写策略,避免因为情绪化封禁破坏产品入口。
列出应该进入搜索和 AI 答案面的公开页面。
列出应该保持私有或不收录的交易、账号、工作区页面。
明确是否要把训练使用与搜索可见分开处理。
整理公开页面渲染所依赖的资源清单。
教程
2. 推荐执行顺序
按这个顺序处理,能在保护敏感路径的同时保住公开流量入口。
先审计公开 URL 集合
确认首页、功能页、文档、教程、对比页等哪些地址必须保持可抓取。
区分搜索 crawler 与训练 crawler
当公开曝光很重要时,保持 OAI-SearchBot、Googlebot 可访问。只有在你的策略确实需要时,再单独限制 GPTBot 或 Google-Extended。
放行支撑资源
不要误封 CSS、JS、图片和会影响正文渲染的接口响应。
只给交易或私有页面加 noindex
结算、账号内、工作区等页面应 noindex,并且不要出现在 sitemap 中。
上线后核对真实结果
直接抓取 robots.txt、检查首屏 HTML,并确认 sitemap 只包含公开 URL。
教程
3. 验证清单
下面这些点都通过后,才能说策略真正生效。
robots.txt 对不同 crawler 暴露了你预期的 allow / disallow 规则。
公开页面首个 HTML 响应仍然能看到主要答案内容。
canonical 与 sitemap 指向的是同一批公开 URL。
私有或交易页面带 noindex,且未进入 sitemap。
教程
4. 常见错误
这些操作看起来安全,实际上最容易让后续流量能力下降。
不区分搜索与训练,直接封掉所有 AI user-agent。
正文依赖延迟客户端渲染,首屏只有空壳。
公开文档错误继承了账号页或预览页的 noindex。
部署后没有再次检查 robots 与 sitemap 的线上输出。
教程
5. 策略 FAQ
上线前这几个问题需要先对齐。
我能限制训练用途,但保留 AI 搜索可见性吗?
可以。只要产品和法务策略需要,就应该把搜索型 crawler 与训练型 crawler 分开决策。
私有页面只靠 robots.txt 就够了吗?
不够。真正私有的页面应同时依赖鉴权;如果 URL 仍可访问,还应叠加 noindex。
文档和教程应该保持公开吗?
如果它们承担获客、教育用户或解释产品能力的作用,就应该公开,这类页面最适合做搜索与 AI 可见。