OpenAI 主動 “暫停” GPT5，谷歌這個模型將成全球最強，AI“高風險功能” 將被開啓？

有人認為，谷歌今年晚些時候推出的 Gemini 有望成為全球迄今為止最強大的 AI 模型，但其 “計劃” 能力或引發安全風險。

打開潘多拉魔盒的不是 OpenAI，而是谷歌？

在美國國會舉行的聽證會上，OpenAI 首席執行官 Sam Altman 説，OpenAI 目前還沒有在未來六個月內訓練 GPT-5 的計劃，表明年內這家公司可能都不會推出更強大的 AI 模型。

因此有人認為，谷歌今年晚些時候推出的 Project Gemini 有望成為全球迄今為止最強大的 AI 模型。

與現有模型相比，Gemini 的最大優勢在於其多模態能力。谷歌在近期的一篇博客文章中介紹説：

我們已經開始着手研發 Gemini，這是我們從零打造的下一代模型，具備多模態能力，高效整合工具和 API（應用程序編程接口），併為實現未來創新（如記憶和計劃）而設計。

儘管 Gemini 目前仍在訓練階段，但它已經展現出先前模型從未有過的多模態能力。一經精細調整和嚴格的安全測試，我們將提供不同大小和功能的 Gemini 模型，就像 PaLM 2 一樣，確保它能夠在各種產品、應用和設備上得到應用，造福每個人。

Gemini 比 GPT 強在哪裏？

Gemini 由谷歌最新組建的 Google DeepMind 團隊開發，最大的亮點就是它的多模態能力。

據悉，Gemini 建立在多模態模型的基礎上，不僅能夠理解和生成文本、代碼，還能夠看懂和生成圖像。相比之下，ChatGPT 只是一個純文本模型，只能理解和生成文本。

這意味着 Gemini 可以應用於更廣泛的任務領域。例如，基於 Gemini 創建的 AI 聊天機器人，能夠理解和生成文本和圖像。

類似地，Bing 雖然有一個專門用於圖像創建的鏈接，但在聊天框內生成的內容仍侷限於純文本，因此用户無法要求它生成圖像。

與 ChatGPT 相比，Gemini 還可以為更多種類的產品和應用提供支持。例如，Gemini 可以用於新的 Google 搜索引擎，或者用於創建一種新型 AI 助手。

ChatGPT 和 Bing 都不具備這些能力。但值得一提的是，GPT 5 或許可以實現這些功能。

另外，憑藉記憶和計劃能力，Gemini 可以用於創建一種新型的 AI 應用，這是 ChatGPT 做不到的。

例如，Gemini 可以用於創建一個能記住你的偏好並幫助你規劃日常活動的 AI 個人助手。

但據華爾街見聞此前文章，ChatGPT 本週推出的 70 款插件，基本上能夠扮演 24 小時私人助理的角色，但並不能實現規劃這一功能。

AI“高風險功能” 將被谷歌開啓？

Gemini 的能力令外界感到驚訝，同時也感到害怕。

一名暱稱為 “AI Explained” 的 Youtube 知名科技博主認為，谷歌不顧安全風險，賦予模型自行制定並執行計劃的能力，並加速開發這一危險的技術，或加劇 AI 對人類社會的威脅。

AI Explained 發現，“計劃” 這一能力被谷歌當做 Gemini 的賣點，但被 OpenAI 視為一種安全風險。

在 GPT 4 的技術報告中，有這樣一段話：

在更強大的模型中，往往會出現新的引人注目的能力。其中一些能力尤為令人擔憂，包括制定和執行長期計劃的能力，謀求權力和資源的能力（“謀求權力”），以及展示越來越 “主動性” 的行為。

谷歌談到將加速對 Gemini 的開發，毫無疑問，其剛剛發佈的通用大語言模型 PaLM 2 將是開發加速的地方。可以理解，在這場激烈的全球 AI 競賽中，暫時處於下風的谷歌必須加快腳步。

作為對比，GPT 4 的技術報告是這樣描述的：

OpenAI 特別關注的一個重要問題是，競爭可能引發安全標準下降、不良規範的傳播以及人工智能時間表的加速，進而加劇與人工智能相關的社會風險。我們在此將其稱為 “加速風險”。

也就是説，OpenAI 是不主張在未能確保安全的情況下加速研究 AI 技術的，主動 “暫停” GPT5 的開發符合這一理念。