守住伺服器資源：阻斷惡意 AI 爬蟲的 4 階段防禦架構 - 知識庫

面對這些不講武德的 AI 爬蟲，我們不能只靠單一方法，因為許多粗暴的爬蟲會偽裝身分或直接無視規則。要徹底解決這個問題，必須建立「多層次」的防禦機制，從溫和的宣告到強硬的封鎖雙管齊下。
以下為您整理 4 個層級的實戰解決方案，防禦強度由弱到強：

第一層：基礎宣告防護

雖然惡意爬蟲不看規則，但像 OpenAI、Google 或 Anthropic 這些大型企業的官方爬蟲，還是會遵守網站協定。

更新 robots.txt 檔案： 在網站根目錄的 robots.txt 中，明確拒絕已知的 AI 爬蟲。例如：
```
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
```
*(註：CCBot 是 Common Crawl 的爬蟲，許多開源 AI 模型都用它的資料庫)*

第二層：伺服器層級阻擋

如果爬蟲無視 robots.txt，我們就必須在伺服器（如 Nginx 或 Apache）上直接把他們擋在門外。

User-Agent (UA) 黑名單： 許多寫得很隨便的爬蟲，其 User-Agent 會包含 python-requests、curl 或 scrapy 等字眼。您可以透過伺服器設定，直接拒絕這些非瀏覽器的 UA 請求。
IP 頻率限制 (Rate Limiting)： 這是最有效對付「高併發」的方法。設定單一 IP 在一秒內只能請求 N 次網頁，一旦超過這個極限，伺服器就直接回傳 429 Too Many Requests 或是暫時封鎖該 IP。這能立刻緩解伺服器被瞬間塞爆的慘況。

第三層：導入 CDN 與 WAF 服務

如果您不想自己寫伺服器規則，把防護交給專業的雲端防火牆（WAF）是最快且最有效的方式。

使用 Cloudflare 等 CDN 服務： Cloudflare 擁有全球最大的惡意 IP 資料庫。只要將網站掛上 Cloudflare，並開啟「Bot Fight Mode（機器人對抗模式）」或設定 WAF 規則。
瀏覽器指紋辨識： 高階的 WAF 服務可以偵測來訪者是不是真的在使用 Chrome 或 Safari 等人類瀏覽器。如果發現對方是「無頭瀏覽器（Headless Browser）」，就會直接攔截。

第四層：網站架構與應用層陷阱

當爬蟲偽裝得太好，連防火牆都騙過時，可以從網站設計本身下手：

無感驗證碼 (CAPTCHA)： 捨棄傳統要找紅綠燈的煩人驗證碼，改用 Cloudflare Turnstile 或 Google reCAPTCHA v3。這些工具會在背景判斷滑鼠軌跡與連線行為，如果是機器人就會被擋下，而真實人類幾乎沒有感覺。
佈署「蜜罐陷阱 (Honeypot)」： 在網頁的 HTML 原始碼中，放入一個使用 CSS 隱藏起來的假連結（例如：<a href="/trap" style="display:none;"></a>）。真實人類看不見也不會點擊，但 AI 爬蟲會無差別地爬取並點進去。只要有 IP 訪問了這個假連結，伺服器就立刻將其永久加入黑名單。

總結：這場防禦戰通常需要循序漸進。從基礎的宣告到強制的封鎖，建立起立體的防護網，才能在不影響真人讀者體驗的前提下，有效阻斷 AI 爬蟲的惡意掠奪，保護網站得來不易的運算資源。

知識庫

分類

分類

技術支援

守住伺服器資源：阻斷惡意 AI 爬蟲的 4 階段防禦架構列印

第一層：基礎宣告防護

第二層：伺服器層級阻擋

第三層：導入 CDN 與 WAF 服務

第四層：網站架構與應用層陷阱

若有問題怎麼辦？

這篇文章有幫助嗎？

技術支援

統一編號

電子信箱

聯絡電話

地址

營運時間

關於我們

產品提供

服務支援

知識庫

分類

分類

技術支援

守住伺服器資源：阻斷惡意 AI 爬蟲的 4 階段防禦架構 列印

第一層：基礎宣告防護

第二層：伺服器層級阻擋

第三層：導入 CDN 與 WAF 服務

第四層：網站架構與應用層陷阱

若有問題怎麼辦？

這篇文章有幫助嗎？

技術支援

統一編號

電子信箱

聯絡電話

地址

營運時間

產生密碼

守住伺服器資源：阻斷惡意 AI 爬蟲的 4 階段防禦架構列印