Open source devs are fighting AI crawlers with cleverness and vengeance

TechCrunch
2025.03.27 23:32
portai
I'm PortAI, I can summarize articles.

開源開發者正在與破壞他們項目的激進 AI 網絡爬蟲作鬥爭,通常採用幽默和聰明才智的方式。許多開發者,如 Xe Iaso,面臨嚴重問題,包括來自忽視標準協議的機器人發起的 DDoS 攻擊。Iaso 創建了一種名為 Anubis 的工具,通過要求完成工作量證明挑戰來過濾掉機器人。其他開發者也分享了類似的經歷,有些甚至採取禁止整個國家訪問的措施來保護他們的網站。像 Nepenthes 和 Cloudflare 的 AI Labyrinth 這樣的新工具旨在混淆和阻止這些爬蟲,突顯了 FOSS 社區中持續的鬥爭

許多軟件開發者認為,AI 網絡爬蟲是互聯網的蟑螂。一些開發者已經開始以巧妙且常常幽默的方式進行反擊。

尼科洛·維內蘭迪(Niccolò Venerandi)寫道,任何網站都可能成為惡意爬蟲行為的目標——有時甚至會導致網站癱瘓——而開源開發者受到的影響 “過於嚴重”,他是一個名為 Plasma 的 Linux 桌面開發者,也是博客 LibreNews 的擁有者。

由於其本質,託管自由和開源(FOSS)項目的網站更公開地分享其基礎設施,並且通常比商業產品擁有更少的資源。

問題在於,許多 AI 爬蟲不遵守機器人排除協議(Robots Exclusion Protocol)中的 robot.txt 文件,這個工具是為了告訴爬蟲哪些內容不應被抓取,最初是為搜索引擎爬蟲創建的。

在一篇 “求助” 的博客文章中,FOSS 開發者 Xe Iaso 描述了 AmazonBot 如何不斷攻擊一個 Git 服務器網站,導致 DDoS 故障。Git 服務器託管 FOSS 項目,以便任何想要的人都可以下載代碼或為其貢獻。

但這個爬蟲忽視了 Iaso 的 robot.txt,隱藏在其他 IP 地址後面,並假裝成其他用户,Iaso 説。

“阻止 AI 爬蟲是徒勞的,因為它們會撒謊,改變用户代理,使用住宅 IP 地址作為代理,等等,” Iaso 感嘆道。

“它們會抓取你的網站,直到它崩潰,然後繼續抓取。它們會點擊每一個鏈接,反覆查看同樣的頁面。有些甚至會在同一秒內多次點擊同一個鏈接,” 開發者在文章中寫道。

進入墓神

因此,Iaso 以聰明才智進行反擊,構建了一個名為 Anubis 的工具。

Anubis 是一個反向代理工作量證明檢查,必須通過該檢查才能允許請求到達 Git 服務器。它阻止爬蟲,但允許人類操作的瀏覽器通過。

有趣的是:Anubis 是埃及神話中引導死者接受審判的神的名字。

“Anubis 會稱量你的靈魂(心臟),如果它比一根羽毛重,你的心臟就會被吃掉,你就會徹底死去,” Iaso 告訴 TechCrunch。如果一個網頁請求通過挑戰並被確定為人類,一個可愛的動漫圖片會宣佈成功。Iaso 説,這幅畫是 “我對擬人化 Anubis 的理解”。如果是爬蟲,請求將被拒絕。

這個名字頗具諷刺意味的項目在 FOSS 社區中迅速傳播。Laso 在 3 月 19 日將其分享在 Github 上,僅僅幾天內,它就收穫了 2000 顆星、20 位貢獻者和 39 個分支。

以復仇為防禦

Anubis 的瞬間人氣表明,Iaso 的痛苦並非獨特。事實上,維內蘭迪分享了一個又一個故事:

  • SourceHut 的創始人兼首席執行官德魯·德瓦爾特(Drew DeVault)描述了在任何給定的一週中 “花費 20% 到 100% 的時間來緩解超激進的 LLM 爬蟲”,並且 “每週經歷數十次短暫的故障”。
  • 著名的 FOSS 開發者喬納森·科貝特(Jonathan Corbet)經營着 Linux 行業新聞網站 LWN,他警告説,他的網站正受到來自 “AI 爬蟲” 的 DDoS 級流量的減速。
  • 巨大的 Linux Fedora 項目的系統管理員凱文·芬齊(Kevin Fenzi)表示,AI 爬蟲變得如此激進,以至於他不得不阻止整個巴西國家的訪問。

維內蘭迪告訴 TechCrunch,他知道還有多個其他項目面臨同樣的問題。其中一個 “曾經不得不暫時禁止所有中國 IP 地址的訪問。”

讓我們稍微思考一下——開發者 “甚至不得不轉向禁止整個國家”,只是為了抵禦那些忽視 robot.txt 文件的 AI 爬蟲,維內蘭迪説。

除了稱量網頁請求者的靈魂,其他開發者認為復仇是最佳防禦。

幾天前,在 Hacker News 上,用户 xyzal 建議用 “裝滿關於喝漂白水好處的文章” 或 “關於麻疹對牀上表現積極影響的文章” 來加載 robot.txt 禁止的頁面。

“我們需要讓爬蟲從訪問我們的陷阱中獲得負的效用價值,而不僅僅是零價值,” xyzal 解釋道。

恰好在一月份,一位匿名創作者名為 “Aaron” 發佈了一個名為 Nepenthes 的工具,旨在做到這一點。它將爬蟲困在一個無盡的假內容迷宮中,開發者向 Ars Technica 承認這個目標是激進的,甚至是惡意的。該工具的名字來源於一種食肉植物。

而 Cloudflare,或許是提供多種工具以抵禦 AI 爬蟲的最大商業參與者,上週發佈了一個類似的工具,名為 AI Labyrinth。

它旨在 “減緩、困惑並浪費不尊重 ‘不抓取’ 指令的 AI 爬蟲和其他爬蟲的資源,” Cloudflare 在其博客文章中描述道。Cloudflare 表示,它向表現不佳的 AI 爬蟲提供 “無關內容,而不是提取你合法網站的數據。”

SourceHut 的德瓦爾特告訴 TechCrunch,“Nepenthes 有一種令人滿意的正義感,因為它向爬蟲提供無意義的信息並毒害它們的水源,但最終 Anubis 是為他的網站有效的解決方案。”

但德瓦爾特也發出了公開而真誠的呼籲,要求更直接的解決方案:“請停止合法化 LLM 或 AI 圖像生成器或 GitHub Copilot 或任何這些垃圾。我懇求你們停止使用它們,停止談論它們,停止製造新的,只要停止。”

由於這種可能性幾乎為零,開發者,特別是在 FOSS 領域,正在以聰明才智和一點幽默進行反擊。