“免费午餐” 到头了?欧盟调查谷歌 AI 优势,直指其利用搜索爬虫无偿获取训练数据

华尔街见闻
2025.12.10 08:55
portai
我是 PortAI,我可以总结文章信息。

据报道,调查焦点在于谷歌通过 Googlebot 爬虫免费获取全网内容训练 AI,而竞争对手需花费数亿美元购买数据授权。网站面临两难:阻止爬虫会失去搜索排名,允许则内容被无偿使用。监管机构考虑强制谷歌分离搜索与 AI 爬虫,让出版商可单独选择退出或要求补偿,创造公平竞争环境。

欧盟正在调查谷歌是否利用其搜索引擎的主导地位,通过网络爬虫无偿获取内容用于 AI 训练,从而在人工智能竞争中获得不公平优势。

12 月 10 日,据彭博社报道,欧盟监管机构已对谷歌推出的 AI Overviews 和 AI Mode 功能启动调查,以确定其是否对内容创作者施加了不公平条款,使其 AI 模型相较竞争对手占据优势。

调查焦点在于,当 OpenAI、Anthropic、亚马逊等 AI 竞争对手花费数亿美元与出版商达成授权协议以获取训练数据时,谷歌却通过为 Google Search 服务的网络爬虫 Googlebot 免费获取整个互联网的内容。

这一优势帮助谷歌在 ChatGPT 推出后迅速追赶上对手。在被 OpenAI 的 ChatGPT 打了个措手不及后,Alphabet 旗下的谷歌实现了快速追赶,其 AI 模型目前已达到竞争对手的水平。

报道指出,但问题在于,谷歌是否通过公平手段实现了这一加速发展。如果监管机构认定其做法不当并强制改变,可能会损害谷歌的 AI 前景。

谷歌的"双重标准":免费获取 vs 付费竞争

报道称,谷歌在 AI 训练数据获取上享有独特优势。该公司依赖名为 Googlebot 的自动化程序浏览网页并为其搜索引擎建立索引,这一爬虫将发现的所有内容整理到谷歌庞大的可搜索索引中。

与此同时,谷歌使用同一程序为其 Gemini 聊天机器人和 AI Overviews 背后的模型提供训练数据。这意味着,当其他 AI 公司为使用高质量数据训练 AI 而付费时,谷歌却免费获得这些资源。它用于索引全球信息的程序同时也在帮助训练其 AI 系统。

Cloudflare 首席执行官 Matthew Prince 在今年早些时候的彭博科技峰会上表示:"谷歌在说,我们对世界上所有内容都拥有天赋权利,即使我们不为此付费。"

而问题进一步复杂化的是,由于用户现在更多依赖 AI 摘要获取信息而非点击搜索结果中的链接,网站所有者的流量出现下降。这创造了一个两难境地:

阻止谷歌爬虫可能导致网站在普通搜索结果中不被收录,但允许谷歌使用其内容训练 AI 系统却意味着失去获得报酬的机会。

报道指出,更糟糕的是,谷歌今年早些时候在法庭上披露,由于组织架构上的问题,即使网站选择退出,谷歌仍会使用其内容进行 AI 训练。出版商实际上处于被绑架状态:要么接受内容被免费使用,要么冒着在搜索结果中消失的风险。

监管方案浮现:强制分离搜索与 AI 爬虫

据彭博报道,Matthew Prince 一直在引导欧洲监管机构采取一个简洁而优雅的解决方案:

强制谷歌仅将 Googlebot 用于搜索,并创建一个独立的网络爬虫专门用于抓取 AI Overviews 所需内容。这样,出版商可以正确地选择退出或要求补偿。

从技术角度看,谷歌工程师可以轻松构建一个具有不同标识符的爬虫,让出版商能够单独屏蔽。但 Alphabet 将抵制任何迫使其像其他公司一样协商并支付 AI 训练内容费用的措施。

这一方案的逻辑在于,如果英伟达可以为芯片收费,工程师可以为他们的时间和智力付出收费,那么网站出版商也应该能够为其内容输出收费。

报道指出,强制分离将创造一个更加公平的竞争环境,让所有 AI 公司在获取训练数据方面面临相同的成本结构。

据报道,谷歌称欧盟的调查"有可能扼杀比以往任何时候都更具竞争性的市场创新"。然而,现实情况恰恰相反:

AI 繁荣本应推动一个拥有数百家可行公司的竞争性市场,就像最初的互联网繁荣一样。但是它正朝着将利润集中在谷歌等现有巨头手中的方向发展。

分析指出,通过 Googlebot 进行的"双重利用"只是谷歌如何利用其主导地位进一步巩固自身优势的最新例证。这种可能帮助谷歌如此迅速赶上竞争对手的潜在优势需要被消除,以创造真正公平的 AI 竞争环境。