Some people are defending Perplexity after Cloudflare ‘named and shamed’ it

TechCrunch
2025.08.05 16:37
portai
I'm PortAI, I can summarize articles.

Cloudflare 指控 AI 搜索引擎 Perplexity 在忽視其阻止方法的情況下抓取網站,這引發了許多人的辯護。批評者認為,代表用户訪問網站的行為應被視為人類請求。Perplexity 聲稱這種行為來自第三方服務,而 Cloudflare 的首席執行官對此進行了批評,並將其與 OpenAI 的做法進行了對比。這場爭議突顯了區分合法 AI 助手和威脅的挑戰,因為機器人活動日益重塑互聯網格局

當 Cloudflare 在週一指控 AI 搜索引擎 Perplexity 偷偷抓取網站,同時忽視網站特定的阻止方法時,這並不是一個簡單的 AI 網絡爬蟲失控的案例。

許多人為 Perplexity 辯護。他們認為,儘管 Perplexity 訪問網站違背了網站所有者的意願,但這種行為是可以接受的。隨着 AI 代理湧入互聯網,這無疑將成為一個爭議:代理在代表用户訪問網站時,應該被視為機器人嗎?還是像人類一樣進行相同的請求?

Cloudflare 以向數百萬個網站提供反機器人爬蟲和其他網絡安全服務而聞名。基本上,Cloudflare 的測試案例涉及設置一個從未被任何機器人抓取過的新域名的新網站,設置一個專門阻止 Perplexity 已知 AI 爬蟲的 robots.txt 文件,然後詢問 Perplexity 關於該網站內容的問題。結果 Perplexity 回答了這個問題。

Cloudflare 的研究人員發現,當其網絡爬蟲被阻止時,AI 搜索引擎使用了 “一個旨在模擬 macOS 上 Google Chrome 的通用瀏覽器”。Cloudflare 首席執行官 Matthew Prince 在 X 上發佈了這項研究,寫道:“一些所謂的 ‘聲譽良好’ 的 AI 公司更像是朝鮮黑客。是時候揭露、羞辱並嚴厲阻止他們了。”

但許多人不同意 Prince 對此行為的評估,認為這並不是實際的不當行為。在 X 和 Hacker News 上為 Perplexity 辯護的人指出,Cloudflare 似乎記錄的是 AI 在用户詢問特定網站時訪問了一個特定的公共網站。

“如果我作為一個人請求一個網站,那麼我應該看到內容,” 一位 Hacker News 用户寫道,並補充道,“為什麼代表我訪問網站的 LLM 會在法律上與我的 Firefox 瀏覽器處於不同的類別?”

Perplexity 的發言人此前向 TechCrunch 否認這些機器人是公司的,並稱 Cloudflare 的博客文章是對 Cloudflare 的銷售宣傳。然後在週二,Perplexity 發佈了一篇博客為自己辯護(並普遍攻擊 Cloudflare),聲稱這種行為來自於他們偶爾使用的第三方服務。

Techcrunch 事件

舊金山 |2025 年 10 月 27-29 日

但 Perplexity 的帖子核心與其在線辯護者的呼籲相似。

“自動爬蟲和用户驅動獲取之間的區別不僅僅是技術上的——而是關於誰可以訪問開放網絡上的信息,” 帖子中寫道。“這一爭議揭示了 Cloudflare 的系統在區分合法的 AI 助手和實際威脅方面根本不夠充分。”

Perplexity 的指控也並不完全公平。Prince 和 Cloudflare 用來指責 Perplexity 方法的一個論點是 OpenAI 的行為並不相同。

“OpenAI 是一個遵循這些最佳實踐的領先 AI 公司示例。他們尊重 robots.txt,並且不試圖規避 robots.txt 指令或網絡級別的阻止。而 ChatGPT Agent 正在使用新提議的開放標準 Web Bot Auth 簽署 http 請求,” Prince 在他的帖子中寫道。

Web Bot Auth 是一個由互聯網工程任務組開發的 Cloudflare 支持的標準,旨在創建一種加密方法來識別 AI 代理的網絡請求。

這一辯論發生在機器人活動重塑互聯網之際。正如 TechCrunch 之前報道的那樣,尋求抓取大量內容以訓練 AI 模型的機器人已成為一種威脅,尤其是對較小的網站。

在互聯網歷史上,機器人活動首次超過了人類活動,AI 流量佔超過 50%,根據 Imperva 上個月發佈的《惡意機器人報告》。大部分活動來自 LLM。但報告還發現,惡意機器人現在佔所有互聯網流量的 37%。這些活動包括從持續抓取到未經授權的登錄嘗試。

在 LLM 出現之前,互聯網普遍接受網站可以並且應該阻止大多數機器人活動,因為這些活動往往是惡意的,使用 CAPTCHA 和其他服務(如 Cloudflare)。網站也有明確的激勵與特定的良好行為者合作,例如 Googlebot,通過 robots.txt 指導其不應索引的內容。Google 索引了互聯網,這為網站帶來了流量。

現在,LLM 正在吞噬越來越多的流量。Gartner 預測到 2026 年,搜索引擎的流量將下降 25%。目前,人類傾向於在 LLM 最有價值的網站鏈接上點擊,這正是他們準備進行交易的時候。

但如果人類如科技行業預測的那樣採用代理——安排我們的旅行、預訂晚餐和為我們購物——網站是否會通過阻止它們來損害自己的商業利益?在 X 上的辯論完美地捕捉了這一困境:

“當我給 Perplexity 提出請求/任務時,我希望它代表我訪問任何公共內容!” 一位用户在回應 Cloudflare 指責 Perplexity 時寫道。

“如果網站所有者不想這樣呢?他們只是希望你直接訪問主頁,查看他們的內容,” 另一位用户爭辯道,指出創建內容的網站所有者希望獲得流量和潛在的廣告收入,而不是讓 Perplexity 來獲取。

“這就是為什麼我認為 ‘代理瀏覽’ 真的很難實現——比人們想的要複雜得多。大多數網站所有者只會選擇阻止。” 一位第三方預測道。