知識庫

守住伺服器資源:阻斷惡意 AI 爬蟲的 4 階段防禦架構 列印

  • 0

面對這些不講武德的 AI 爬蟲,我們不能只靠單一方法,因為許多粗暴的爬蟲會偽裝身分或直接無視規則。要徹底解決這個問題,必須建立「多層次」的防禦機制,從溫和的宣告到強硬的封鎖雙管齊下。
以下為您整理 4 個層級的實戰解決方案,防禦強度由弱到強:


第一層:基礎宣告防護

雖然惡意爬蟲不看規則,但像 OpenAI、Google 或 Anthropic 這些大型企業的官方爬蟲,還是會遵守網站協定。

  • 更新 robots.txt 檔案: 在網站根目錄的 robots.txt 中,明確拒絕已知的 AI 爬蟲。例如:
    User-agent: GPTBot
    Disallow: /
    User-agent: ChatGPT-User
    Disallow: /
    User-agent: Google-Extended
    Disallow: /
    User-agent: Anthropic-ai
    Disallow: /
    User-agent: CCBot
    Disallow: /
    *(註:CCBot 是 Common Crawl 的爬蟲,許多開源 AI 模型都用它的資料庫)*

第二層:伺服器層級阻擋

如果爬蟲無視 robots.txt,我們就必須在伺服器(如 Nginx 或 Apache)上直接把他們擋在門外。

  • User-Agent (UA) 黑名單: 許多寫得很隨便的爬蟲,其 User-Agent 會包含 python-requests、curl 或 scrapy 等字眼。您可以透過伺服器設定,直接拒絕這些非瀏覽器的 UA 請求。
  • IP 頻率限制 (Rate Limiting): 這是最有效對付「高併發」的方法。設定單一 IP 在一秒內只能請求 N 次網頁,一旦超過這個極限,伺服器就直接回傳 429 Too Many Requests 或是暫時封鎖該 IP。這能立刻緩解伺服器被瞬間塞爆的慘況。

第三層:導入 CDN 與 WAF 服務

如果您不想自己寫伺服器規則,把防護交給專業的雲端防火牆(WAF)是最快且最有效的方式。

  • 使用 Cloudflare 等 CDN 服務: Cloudflare 擁有全球最大的惡意 IP 資料庫。只要將網站掛上 Cloudflare,並開啟「Bot Fight Mode(機器人對抗模式)」或設定 WAF 規則。
  • 瀏覽器指紋辨識: 高階的 WAF 服務可以偵測來訪者是不是真的在使用 Chrome 或 Safari 等人類瀏覽器。如果發現對方是「無頭瀏覽器(Headless Browser)」,就會直接攔截。

第四層:網站架構與應用層陷阱

當爬蟲偽裝得太好,連防火牆都騙過時,可以從網站設計本身下手:

  • 無感驗證碼 (CAPTCHA): 捨棄傳統要找紅綠燈的煩人驗證碼,改用 Cloudflare Turnstile 或 Google reCAPTCHA v3。這些工具會在背景判斷滑鼠軌跡與連線行為,如果是機器人就會被擋下,而真實人類幾乎沒有感覺。
  • 佈署「蜜罐陷阱 (Honeypot)」: 在網頁的 HTML 原始碼中,放入一個使用 CSS 隱藏起來的假連結(例如:<a href="/trap" style="display:none;"></a>)。真實人類看不見也不會點擊,但 AI 爬蟲會無差別地爬取並點進去。只要有 IP 訪問了這個假連結,伺服器就立刻將其永久加入黑名單。

總結:這場防禦戰通常需要循序漸進。從基礎的宣告到強制的封鎖,建立起立體的防護網,才能在不影響真人讀者體驗的前提下,有效阻斷 AI 爬蟲的惡意掠奪,保護網站得來不易的運算資源。

 


若有問題怎麼辦?

如有任何疑問,歡迎聯繫我們的客服團隊,我們將竭誠為您服務。

✉️ 客服信箱: support@prehost.cc

☎️ 客服電話: (07) 349-4220

或透過以下方式與我們保持聯繫:

LINE 官方帳號
Facebook 粉絲專頁
Instagram
Threads

讓我們協助您快速解決問題,並掌握最新主機優惠與技術資訊。


這篇文章有幫助嗎?
« 返回