
Perplexity accused of scraping websites that explicitly blocked AI scraping

AI 初創公司 Perplexity 被 Cloudflare 指控從明確禁止此類行為的網站抓取內容。Cloudflare 的研究表明,Perplexity 通過更改其機器人的用户代理和網絡標識符來規避這些限制。儘管 Perplexity 的發言人否認了這些指控,但 Cloudflare 確認在多個域名上發現了這種活動。這一事件緊隨 Perplexity 之前因未經授權抓取和抄襲而受到的指控。Cloudflare 隨後採取措施阻止 Perplexity 的機器人,並推出了一個市場,供網站所有者向 AI 抓取者收費
根據互聯網基礎設施提供商 Cloudflare 的説法,人工智能初創公司 Perplexity 正在爬取和抓取那些明確表示不希望被抓取的網站內容。
週一,Cloudflare 發佈研究稱,它觀察到這家人工智能初創公司忽視了阻止措施,並隱藏了其爬取和抓取活動。這家網絡基礎設施巨頭指責 Perplexity 在試圖抓取網頁時 “試圖規避網站的偏好”,Cloudflare 的研究人員寫道。
像 Perplexity 提供的人工智能產品依賴於從互聯網獲取大量數據,而人工智能初創公司長期以來在未經許可的情況下多次從互聯網抓取文本、圖像和視頻,以使其產品正常運作。近年來,網站試圖通過使用網絡標準 Robots.txt 文件進行反擊,該文件告訴搜索引擎和人工智能公司哪些頁面可以被索引,哪些不可以,但這些努力迄今為止效果不一。
根據 Cloudflare 的説法,Perplexity 似乎故意通過更改其機器人 “用户代理” 來規避這些阻止措施,這意味着一個信號,用於根據設備和版本類型識別網站訪問者;以及更改其自主系統網絡(ASN),本質上是一個識別互聯網大型網絡的號碼。
“這種活動在數萬個域名和每天數百萬個請求中被觀察到。我們能夠使用機器學習和網絡信號的組合來指紋識別這個爬蟲,” Cloudflare 的帖子中寫道。
Perplexity 發言人 Jesse Dwyer 將 Cloudflare 的博客帖子駁斥為 “銷售宣傳”,並在給 TechCrunch 的電子郵件中補充説,帖子中的截圖 “顯示沒有訪問任何內容”。在後續電子郵件中,Dwyer 聲稱 Cloudflare 博客中提到的機器人 “甚至不是我們的”。
Cloudflare 表示,它首次注意到這種行為是在其客户投訴 Perplexity 爬取和抓取他們的網站後,即使他們在 Robots 文件中添加了規則,專門阻止 Perplexity 已知的機器人。Cloudflare 表示,隨後進行了測試以檢查並確認 Perplexity 正在規避這些阻止措施。
Techcrunch 活動
舊金山 |2025 年 10 月 27 日至 29 日
根據 Cloudflare 的説法,“我們觀察到 Perplexity 不僅使用其聲明的用户代理,還使用一種通用瀏覽器,旨在在其聲明的爬蟲被阻止時偽裝成 macOS 上的 Google Chrome。”
該公司還表示,它已將 Perplexity 的機器人從其驗證列表中刪除,並添加了新的技術來阻止它們。
Cloudflare 最近公開表態反對人工智能爬蟲。上個月,Cloudflare 宣佈推出一個市場,允許網站所有者和出版商向訪問其網站的人工智能抓取者收費。Cloudflare 的首席執行官 Matthew Prince 當時發出警告,稱人工智能正在破壞互聯網的商業模式,特別是出版商。去年,Cloudflare 還推出了一種免費的工具,以防止機器人抓取網站以訓練人工智能。
這並不是 Perplexity 第一次被指控未經授權抓取。
去年,新聞媒體如 Wired 指控 Perplexity 抄襲他們的內容。幾周後,Perplexity 的首席執行官 Aravind Srinivas 在 Disrupt 2024 大會上接受 TechCrunch 的 Devin Coldewey 採訪時,被問及公司對抄襲的定義時無法立即回答。
