The highly anticipated Gemini model: Stronger than GPT-4, but not by much?

華爾街見聞
2023.12.07 04:04
portai
I'm PortAI, I can summarize articles.

多位科技分析人士認為,雖然 Gemini 的性能的確優於現有的多模態模型,但它和 GPT-4 的差距並沒有那麼誇張。從谷歌放出的演示視頻來看,很少有什麼我們在過去一年的 AI 炒作狂潮裏沒見過的東西。

谷歌憋了好幾個月的大招、人類迄今為止最強大的 AI 模型——Gemini,終於發佈了。按照谷歌的説法,它可以像人類一樣理解我們周圍的世界,處理代碼、文字、音頻、圖像和視頻通通不在話下。Google DeepMind 團隊稱,Gemini 在 32 項基準性能測試中的 30 項上超過了 GPT-4。

然而,多位科技分析人士認為,雖然 Gemini 的性能的確優於現有的多模態模型,但它和 GPT-4 的差距並沒有那麼誇張。從谷歌放出的演示視頻來看,很少有什麼我們在過去一年的 AI 炒作狂潮裏沒見過的東西。

如果以谷歌的算力資源、研發能力和豐富的數據都僅能做到勉強擊敗 GPT4,更大問題在於,Gemini 或許就是以人類目前的技術,能夠打造的大模型的上限了。

比 GPT-4 強,但強得不多

根據谷歌放出的演示視頻,Gemini 是玩 “你畫我猜” 的一把好手,不僅可以準確地描述測試者在紙上畫出的圖形,還能根據測試者畫出的輪廓猜測她繪製的是什麼東西。

在另一個例子中,測試者給 Gemini 展示了一張煎蛋卷在平底鍋中烹飪的圖片,並用語音詢問煎蛋卷是否已經煮熟,Gemini 也用語音回答道:“還沒有煮熟,因為雞蛋還是液態的。”

看起來很新鮮,但 Gemini 真的如谷歌所言的全方位超越 GPT-4 嗎?

不見得。

基準的 MMLU 測試用於衡量 AI 模型在文本和圖像的任務上的表現,包括閲讀理解、大學數學以及物理、經濟學和社會科學中的多項選擇測驗。谷歌 CEO 劈柴表示,在 MMLU 測試中,Gemini 全面擊敗 GPT4。對於純文本問題,Gemini 得分為 90,人類專家得分為 89。GPT-4 得分為 86;對於多模態問題,Gemini 得分為 59,而 GPT-4 得分為 57。

聖達菲研究所的 AI 研究員 Melanie Mitchell 對媒體表示,Gemini 基準測試的表現令人印象深刻,這的確説明 Gemini 是一個非常複雜的人工智能系統,但她指出,自己並沒有明顯感受到 Gemini 和 GPT-4 在實際能力上的差距。

Mitchell 還指出,Gemini 在語言和代碼基準測試上的表現要比在圖像和視頻上表現更好:

“多模態基礎模型仍然有很長的路要走,才能在許多任務裏任務大範圍、可靠地應用。”

斯坦福大學基礎模型研究中心主任 Percy Liang 也對媒體表示,雖然 Gemini 具有良好的基準分數,但由於我們不知道訓練數據中的內容,很難知道如何解釋這些數字。

Google DeepMind 還稱,在人類測試者的幫助下,Gemini 減輕了幻覺出現的頻率,在回答問題時已經變得更加準確,在被要求時可以給出信源,並且不會再遇到難回答的問題時胡編亂造。

不過,這一點同樣需要谷歌公開更多數據,否則目前也很難去驗證。

倉促上陣

深度學習教父傑夫·辛頓(Geoffrey Hinton)在四月份離開谷歌時對媒體表示

“谷歌一直非常謹慎地向公眾發佈 AI 產品,可能發生的壞事太多了,谷歌不想毀了自己的聲譽。面對看似不值得信賴或無法銷售的技術,谷歌採取了謹慎的態度,因此錯過了更關鍵的機會。”

可能正是因為意識到了這一點,所以谷歌在推動 Gemini 上線時非常着急。

Gemini 最強大的滿血版 Gemini Ultra,還需要等待幾個月才能和公眾見面。谷歌稱,Ultra 版目前只會提供給部分客户、開發者、合作伙伴以及安全與責任專家使用。

有分析人士指出,谷歌甚至自己也不瞭解 Gemini Ultra 的所有新功能,也沒有為 Gemini 制定出貨幣化戰略。考慮到人工智能模型訓練和推理的高昂成本,谷歌可能需要很長時間才能想出盈利策略。

會不會是谷歌的營銷策略導致了今天產品發佈的失敗?也許是吧。又或者,打造最先進的生成式人工智能模型真的很難——即使你重組了整個人工智能部門來加快進程,效果可能也不盡如人意。