Open source devs are fighting AI crawlers with cleverness and vengeance

開源開發者正在與破壞他們項目的激進 AI 網絡爬蟲作鬥爭，通常採用幽默和聰明才智的方式。許多開發者，如 Xe Iaso，面臨嚴重問題，包括來自忽視標準協議的機器人發起的 DDoS 攻擊。Iaso 創建了一種名為 Anubis 的工具，通過要求完成工作量證明挑戰來過濾掉機器人。其他開發者也分享了類似的經歷，有些甚至採取禁止整個國家訪問的措施來保護他們的網站。像 Nepenthes 和 Cloudflare 的 AI Labyrinth 這樣的新工具旨在混淆和阻止這些爬蟲，突顯了 FOSS 社區中持續的鬥爭

許多軟件開發者認為，AI 網絡爬蟲是互聯網的蟑螂。一些開發者已經開始以巧妙且常常幽默的方式進行反擊。

尼科洛·維內蘭迪（Niccolò Venerandi）寫道，任何網站都可能成為惡意爬蟲行為的目標——有時甚至會導致網站癱瘓——而開源開發者受到的影響 “過於嚴重”，他是一個名為 Plasma 的 Linux 桌面開發者，也是博客 LibreNews 的擁有者。

由於其本質，託管自由和開源（FOSS）項目的網站更公開地分享其基礎設施，並且通常比商業產品擁有更少的資源。

問題在於，許多 AI 爬蟲不遵守機器人排除協議（Robots Exclusion Protocol）中的 robot.txt 文件，這個工具是為了告訴爬蟲哪些內容不應被抓取，最初是為搜索引擎爬蟲創建的。

在一篇 “求助” 的博客文章中，FOSS 開發者 Xe Iaso 描述了 AmazonBot 如何不斷攻擊一個 Git 服務器網站，導致 DDoS 故障。Git 服務器託管 FOSS 項目，以便任何想要的人都可以下載代碼或為其貢獻。

但這個爬蟲忽視了 Iaso 的 robot.txt，隱藏在其他 IP 地址後面，並假裝成其他用户，Iaso 説。

“阻止 AI 爬蟲是徒勞的，因為它們會撒謊，改變用户代理，使用住宅 IP 地址作為代理，等等，” Iaso 感嘆道。

“它們會抓取你的網站，直到它崩潰，然後繼續抓取。它們會點擊每一個鏈接，反覆查看同樣的頁面。有些甚至會在同一秒內多次點擊同一個鏈接，” 開發者在文章中寫道。

進入墓神

因此，Iaso 以聰明才智進行反擊，構建了一個名為 Anubis 的工具。

Anubis 是一個反向代理工作量證明檢查，必須通過該檢查才能允許請求到達 Git 服務器。它阻止爬蟲，但允許人類操作的瀏覽器通過。

有趣的是：Anubis 是埃及神話中引導死者接受審判的神的名字。

“Anubis 會稱量你的靈魂（心臟），如果它比一根羽毛重，你的心臟就會被吃掉，你就會徹底死去，” Iaso 告訴 TechCrunch。如果一個網頁請求通過挑戰並被確定為人類，一個可愛的動漫圖片會宣佈成功。Iaso 説，這幅畫是 “我對擬人化 Anubis 的理解”。如果是爬蟲，請求將被拒絕。

這個名字頗具諷刺意味的項目在 FOSS 社區中迅速傳播。Laso 在 3 月 19 日將其分享在 Github 上，僅僅幾天內，它就收穫了 2000 顆星、20 位貢獻者和 39 個分支。

以復仇為防禦

Anubis 的瞬間人氣表明，Iaso 的痛苦並非獨特。事實上，維內蘭迪分享了一個又一個故事：

SourceHut 的創始人兼首席執行官德魯·德瓦爾特（Drew DeVault）描述了在任何給定的一週中 “花費 20% 到 100% 的時間來緩解超激進的 LLM 爬蟲”，並且 “每週經歷數十次短暫的故障”。
著名的 FOSS 開發者喬納森·科貝特（Jonathan Corbet）經營着 Linux 行業新聞網站 LWN，他警告説，他的網站正受到來自 “AI 爬蟲” 的 DDoS 級流量的減速。
巨大的 Linux Fedora 項目的系統管理員凱文·芬齊（Kevin Fenzi）表示，AI 爬蟲變得如此激進，以至於他不得不阻止整個巴西國家的訪問。

維內蘭迪告訴 TechCrunch，他知道還有多個其他項目面臨同樣的問題。其中一個 “曾經不得不暫時禁止所有中國 IP 地址的訪問。”

讓我們稍微思考一下——開發者 “甚至不得不轉向禁止整個國家”，只是為了抵禦那些忽視 robot.txt 文件的 AI 爬蟲，維內蘭迪説。

除了稱量網頁請求者的靈魂，其他開發者認為復仇是最佳防禦。

幾天前，在 Hacker News 上，用户 xyzal 建議用 “裝滿關於喝漂白水好處的文章” 或 “關於麻疹對牀上表現積極影響的文章” 來加載 robot.txt 禁止的頁面。

“我們需要讓爬蟲從訪問我們的陷阱中獲得負的效用價值，而不僅僅是零價值，” xyzal 解釋道。

恰好在一月份，一位匿名創作者名為 “Aaron” 發佈了一個名為 Nepenthes 的工具，旨在做到這一點。它將爬蟲困在一個無盡的假內容迷宮中，開發者向 Ars Technica 承認這個目標是激進的，甚至是惡意的。該工具的名字來源於一種食肉植物。

而 Cloudflare，或許是提供多種工具以抵禦 AI 爬蟲的最大商業參與者，上週發佈了一個類似的工具，名為 AI Labyrinth。

它旨在 “減緩、困惑並浪費不尊重 ‘不抓取’ 指令的 AI 爬蟲和其他爬蟲的資源，” Cloudflare 在其博客文章中描述道。Cloudflare 表示，它向表現不佳的 AI 爬蟲提供 “無關內容，而不是提取你合法網站的數據。”

SourceHut 的德瓦爾特告訴 TechCrunch，“Nepenthes 有一種令人滿意的正義感，因為它向爬蟲提供無意義的信息並毒害它們的水源，但最終 Anubis 是為他的網站有效的解決方案。”

但德瓦爾特也發出了公開而真誠的呼籲，要求更直接的解決方案：“請停止合法化 LLM 或 AI 圖像生成器或 GitHub Copilot 或任何這些垃圾。我懇求你們停止使用它們，停止談論它們，停止製造新的，只要停止。”

由於這種可能性幾乎為零，開發者，特別是在 FOSS 領域，正在以聰明才智和一點幽默進行反擊。