OpenAI 主动 “暂停” GPT5,谷歌这个模型将成全球最强,AI“高风险功能” 将被开启?
有人认为,谷歌今年晚些时候推出的 Gemini 有望成为全球迄今为止最强大的 AI 模型,但其 “计划” 能力或引发安全风险。
打开潘多拉魔盒的不是 OpenAI,而是谷歌?
在美国国会举行的听证会上,OpenAI 首席执行官 Sam Altman 说,OpenAI 目前还没有在未来六个月内训练 GPT-5 的计划,表明年内这家公司可能都不会推出更强大的 AI 模型。
因此有人认为,谷歌今年晚些时候推出的 Project Gemini 有望成为全球迄今为止最强大的 AI 模型。
与现有模型相比,Gemini 的最大优势在于其多模态能力。谷歌在近期的一篇博客文章中介绍说:
我们已经开始着手研发 Gemini,这是我们从零打造的下一代模型,具备多模态能力,高效整合工具和 API(应用程序编程接口),并为实现未来创新(如记忆和计划)而设计。
尽管 Gemini 目前仍在训练阶段,但它已经展现出先前模型从未有过的多模态能力。一经精细调整和严格的安全测试,我们将提供不同大小和功能的 Gemini 模型,就像 PaLM 2 一样,确保它能够在各种产品、应用和设备上得到应用,造福每个人。
Gemini 比 GPT 强在哪里?
Gemini 由谷歌最新组建的 Google DeepMind 团队开发,最大的亮点就是它的多模态能力。
据悉,Gemini 建立在多模态模型的基础上,不仅能够理解和生成文本、代码,还能够看懂和生成图像。相比之下,ChatGPT 只是一个纯文本模型,只能理解和生成文本。
这意味着 Gemini 可以应用于更广泛的任务领域。例如,基于 Gemini 创建的 AI 聊天机器人,能够理解和生成文本和图像。
类似地,Bing 虽然有一个专门用于图像创建的链接,但在聊天框内生成的内容仍局限于纯文本,因此用户无法要求它生成图像。
与 ChatGPT 相比,Gemini 还可以为更多种类的产品和应用提供支持。例如,Gemini 可以用于新的 Google 搜索引擎,或者用于创建一种新型 AI 助手。
ChatGPT 和 Bing 都不具备这些能力。但值得一提的是,GPT 5 或许可以实现这些功能。
另外,凭借记忆和计划能力,Gemini 可以用于创建一种新型的 AI 应用,这是 ChatGPT 做不到的。
例如,Gemini 可以用于创建一个能记住你的偏好并帮助你规划日常活动的 AI 个人助手。
但据华尔街见闻此前文章,ChatGPT 本周推出的 70 款插件,基本上能够扮演 24 小时私人助理的角色,但并不能实现规划这一功能。
AI“高风险功能” 将被谷歌开启?
Gemini 的能力令外界感到惊讶,同时也感到害怕。
一名昵称为 “AI Explained” 的 Youtube 知名科技博主认为,谷歌不顾安全风险,赋予模型自行制定并执行计划的能力,并加速开发这一危险的技术,或加剧 AI 对人类社会的威胁。
AI Explained 发现,“计划” 这一能力被谷歌当做 Gemini 的卖点,但被 OpenAI 视为一种安全风险。
在 GPT 4 的技术报告中,有这样一段话:
在更强大的模型中,往往会出现新的引人注目的能力。其中一些能力尤为令人担忧,包括制定和执行长期计划的能力,谋求权力和资源的能力(“谋求权力”),以及展示越来越 “主动性” 的行为。
谷歌谈到将加速对 Gemini 的开发,毫无疑问,其刚刚发布的通用大语言模型 PaLM 2 将是开发加速的地方。可以理解,在这场激烈的全球 AI 竞赛中,暂时处于下风的谷歌必须加快脚步。
作为对比,GPT 4 的技术报告是这样描述的:
OpenAI 特别关注的一个重要问题是,竞争可能引发安全标准下降、不良规范的传播以及人工智能时间表的加速,进而加剧与人工智能相关的社会风险。我们在此将其称为 “加速风险”。
也就是说,OpenAI 是不主张在未能确保安全的情况下加速研究 AI 技术的,主动 “暂停” GPT5 的开发符合这一理念。