內容類型
教學
教學
2026-03-21這頁回答什麼
如果你希望公開頁面繼續進入搜尋與 AI 引用面,就應該允許合適的 crawler 抓取公開內容,把更嚴格的限制留給私有、交易或訓練敏感的路徑。
教學
1. 改 robots 之前先準備
先把頁面邊界列清楚,再寫策略,避免因為情緒化封禁破壞產品入口。
列出應該進入搜尋和 AI 答案面的公開頁面。
列出應該保持私有或不收錄的交易、帳號、工作區頁面。
明確是否要把訓練使用與搜尋可見分開處理。
整理公開頁面渲染所依賴的資源清單。
教學
2. 推薦執行順序
按這個順序處理,能在保護敏感路徑的同時保住公開流量入口。
先審計公開 URL 集合
確認首頁、功能頁、文件、教學、對比頁等哪些地址必須保持可抓取。
區分搜尋 crawler 與訓練 crawler
當公開曝光很重要時,保持 OAI-SearchBot、Googlebot 可訪問。只有在你的策略確實需要時,再單獨限制 GPTBot 或 Google-Extended。
放行支撐資源
不要誤封 CSS、JS、圖片和會影響正文渲染的介面回應。
只給交易或私有頁面加 noindex
結算、帳號內、工作區等頁面應 noindex,並且不要出現在 sitemap 中。
上線後核對真實結果
直接抓取 robots.txt、檢查首屏 HTML,並確認 sitemap 只包含公開 URL。
教學
3. 驗證清單
下面這些點都通過後,才能說策略真正生效。
robots.txt 對不同 crawler 暴露了你預期的 allow / disallow 規則。
公開頁面首個 HTML 回應仍然能看到主要答案內容。
canonical 與 sitemap 指向的是同一批公開 URL。
私有或交易頁面帶 noindex,且未進入 sitemap。
教學
4. 常見錯誤
這些操作看起來安全,實際上最容易讓後續流量能力下降。
不區分搜尋與訓練,直接封掉所有 AI user-agent。
正文依賴延遲客戶端渲染,首屏只有空殼。
公開文件錯誤繼承了帳號頁或預覽頁的 noindex。
部署後沒有再次檢查 robots 與 sitemap 的線上輸出。
教學
5. 策略 FAQ
上線前這幾個問題需要先對齊。
我能限制訓練用途,但保留 AI 搜尋可見性嗎?
可以。只要產品和法務策略需要,就應該把搜尋型 crawler 與訓練型 crawler 分開決策。
私有頁面只靠 robots.txt 就夠了嗎?
不夠。真正私有的頁面應同時依賴鑑權;如果 URL 仍可訪問,還應疊加 noindex。
文件和教學應該保持公開嗎?
如果它們承擔獲客、教育使用者或解釋產品能力的作用,就應該公開,這類頁面最適合做搜尋與 AI 可見。