"Free lunch" is over? The EU investigates Google's AI dominance, pointing to its use of search crawlers to obtain training data for free

據報道，調查焦點在於谷歌通過 Googlebot 爬蟲免費獲取全網內容訓練 AI，而競爭對手需花費數億美元購買數據授權。網站面臨兩難：阻止爬蟲會失去搜索排名，允許則內容被無償使用。監管機構考慮強制谷歌分離搜索與 AI 爬蟲，讓出版商可單獨選擇退出或要求補償，創造公平競爭環境。

歐盟正在調查谷歌是否利用其搜索引擎的主導地位，通過網絡爬蟲無償獲取內容用於 AI 訓練，從而在人工智能競爭中獲得不公平優勢。

12 月 10 日，據彭博社報道，歐盟監管機構已對谷歌推出的 AI Overviews 和 AI Mode 功能啓動調查，以確定其是否對內容創作者施加了不公平條款，使其 AI 模型相較競爭對手佔據優勢。

調查焦點在於，當 OpenAI、Anthropic、亞馬遜等 AI 競爭對手花費數億美元與出版商達成授權協議以獲取訓練數據時，谷歌卻通過為 Google Search 服務的網絡爬蟲 Googlebot 免費獲取整個互聯網的內容。

這一優勢幫助谷歌在 ChatGPT 推出後迅速追趕上對手。在被 OpenAI 的 ChatGPT 打了個措手不及後，Alphabet 旗下的谷歌實現了快速追趕，其 AI 模型目前已達到競爭對手的水平。

報道指出，但問題在於，谷歌是否通過公平手段實現了這一加速發展。如果監管機構認定其做法不當並強制改變，可能會損害谷歌的 AI 前景。

谷歌的"雙重標準"：免費獲取 vs 付費競爭

報道稱，谷歌在 AI 訓練數據獲取上享有獨特優勢。該公司依賴名為 Googlebot 的自動化程序瀏覽網頁併為其搜索引擎建立索引，這一爬蟲將發現的所有內容整理到谷歌龐大的可搜索索引中。

與此同時，谷歌使用同一程序為其 Gemini 聊天機器人和 AI Overviews 背後的模型提供訓練數據。這意味着，當其他 AI 公司為使用高質量數據訓練 AI 而付費時，谷歌卻免費獲得這些資源。它用於索引全球信息的程序同時也在幫助訓練其 AI 系統。

Cloudflare 首席執行官 Matthew Prince 在今年早些時候的彭博科技峯會上表示："谷歌在説，我們對世界上所有內容都擁有天賦權利，即使我們不為此付費。"

而問題進一步複雜化的是，由於用户現在更多依賴 AI 摘要獲取信息而非點擊搜索結果中的鏈接，網站所有者的流量出現下降。這創造了一個兩難境地：

阻止谷歌爬蟲可能導致網站在普通搜索結果中不被收錄，但允許谷歌使用其內容訓練 AI 系統卻意味着失去獲得報酬的機會。

報道指出，更糟糕的是，谷歌今年早些時候在法庭上披露，由於組織架構上的問題，即使網站選擇退出，谷歌仍會使用其內容進行 AI 訓練。出版商實際上處於被綁架狀態：要麼接受內容被免費使用，要麼冒着在搜索結果中消失的風險。

據彭博報道，Matthew Prince 一直在引導歐洲監管機構採取一個簡潔而優雅的解決方案：

強制谷歌僅將 Googlebot 用於搜索，並創建一個獨立的網絡爬蟲專門用於抓取 AI Overviews 所需內容。這樣，出版商可以正確地選擇退出或要求補償。

從技術角度看，谷歌工程師可以輕鬆構建一個具有不同標識符的爬蟲，讓出版商能夠單獨屏蔽。但 Alphabet 將抵制任何迫使其像其他公司一樣協商並支付 AI 訓練內容費用的措施。

這一方案的邏輯在於，如果英偉達可以為芯片收費，工程師可以為他們的時間和智力付出收費，那麼網站出版商也應該能夠為其內容輸出收費。

報道指出，強制分離將創造一個更加公平的競爭環境，讓所有 AI 公司在獲取訓練數據方面面臨相同的成本結構。

據報道，谷歌稱歐盟的調查"有可能扼殺比以往任何時候都更具競爭性的市場創新"。然而，現實情況恰恰相反：

AI 繁榮本應推動一個擁有數百家可行公司的競爭性市場，就像最初的互聯網繁榮一樣。但是它正朝着將利潤集中在谷歌等現有巨頭手中的方向發展。

分析指出，通過 Googlebot 進行的"雙重利用"只是谷歌如何利用其主導地位進一步鞏固自身優勢的最新例證。這種可能幫助谷歌如此迅速趕上競爭對手的潛在優勢需要被消除，以創造真正公平的 AI 競爭環境。