
谷歌深夜放復仇殺器 Gemini,最強原生多模態史詩級碾壓 GPT-4!語言理解首超人類

Gemini,讓谷歌再次偉大?Gemini 的設計優於以往的多模態模型,能夠無縫地理解和推理各種輸入內容。它能以人類一樣的方式理解我們周圍的世界,並吸收任何類型的輸入和輸出。這對於谷歌來説是一項重要的創新。
谷歌的復仇大殺器 Gemini,深夜忽然上線!
被 ChatGPT 壓着打了整整一年,谷歌選擇在 12 月的這一天,展開最強反擊戰。
多模態 Gemini,迄今規模最大、能力最強的谷歌大模型,在文本、視頻、語音等多個領域超越了 GPT-4,是真正的一雪前恥。
人類有五種感官,我們所建造的世界、所消費的媒體,都是以這樣的方式所呈現。
而 Gemini 的出現,就是邁向真正通用的 AI 模型的第一步!
Gemini 的誕生,代表着 AI 模型的巨大飛躍,谷歌所有的產品,都將隨之改頭換面。
塞進多模態模型的搜索引擎、廣告產品、Chrome 瀏覽器……這,就是谷歌給我們的未來。
多模態的史詩級創新
以前,多模態大模型就是將純文本、純視覺和純音頻模型拼接在一起,就像 OpenAI 的 GPT-4、DALL·E 和 Whisper 那樣。然而,這並不是最優解。
相比之下,在設計之初,多模態就是 Gemini 計劃的一部分。
從一開始,Gemini 就在不同模態上進行了訓練。隨後,研究人員又用額外的多模態數據進行了微調,進一步提升了模型的有效性。最終,實現了「無縫」地理解和推理各種模態的輸入內容。
從結果上來看,Gemini 的性能要遠遠優於現有的多模態模型,而且它的功能幾乎在每個領域都是 SOTA 級別的。
而這個最大、最有能力的模型,也意味着 Gemini 可以用和人類一樣的方式理解我們周圍的世界,並且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。
Gemini 猜對了紙團在最左邊的杯子裏
Google DeepMind 首席執行官兼聯合創始人 Demis Hassabis 表示,谷歌一直對非常通用的系統感興趣。
而這裏最關鍵的,就是如何混合所有這些模式,如何從任意數量的輸入和感官中收集儘可能多的數據,然後給出同樣多樣化的響應。
DeepMind 和谷歌大腦合併後,果然拿出了真東西。
之所以命名為 Gemini,就是因為谷歌兩大 AI 實驗室的合體,另外也一個解釋是參考了美國宇航局的 Gemini 項目,後者為阿波羅登月計劃鋪平了道路。
首次超越人類,大幅碾壓 GPT-4
雖然沒有正式公佈,但根據內部消息,Gemini 有萬億參數,訓練所用的算力甚至達到 GPT-4 的五倍。
既然是被拿來硬剛 GPT-4 的模型,Gemini 當然少不了經歷最嚴格的測試。
谷歌在多種任務上評估了兩種模型的性能,驚喜地發現:從自然圖像、音頻、視頻理解到數學推理,Gemini Ultra 在 32 個常用的學術基準的 30 個上,已經超越 GPT-4!
而在 MMLU(大規模多任務語言理解)測試中,Gemini Ultra 以 90.0% 的高分,首次超過了人類專家。
Gemini 是第一個在 MMLU(大規模多任務語言理解)上超越人類專家的模型
MMLU 測試包括 57 個學科,如數學、物理、歷史、法律、醫學和倫理,旨在考察世界知識和解決問題的能力。
在這 50 多個不同學科領域中的每一箇中,Gemini 都和這些領域最好的專家一樣好。
谷歌為 MMLU 設定的新基準,讓 Gemini 在回答複雜問題前,能夠更仔細地發揮推理能力,相比於僅依賴於直覺反應,這種方法帶來了顯著提升。
在新的 MMMU 基準測試中,Gemini Ultra 也取得了 59.4% 的高分,這一測試包括了跨越不同領域的多模態任務,這些任務需要深入的推理過程。
圖像基準測試中,Gemini Ultra 的表現也超過了之前的領先模型,而且,這一成就是在沒有 OCR 系統幫助的情況下實現的!
種種測試表明,Gemini 在多模態處理上表現出了強大的能力,並且在更復雜的推理上也有着極大潛力。
詳情可參閲 Gemini 技術報告:
報告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
中杯、大杯、超大杯!
Gemini Ultra 是谷歌迄今為止創建的最強大 LLM 最大,能夠完成高度複雜的任務,主要面向數據中心和企業級應用。
Gemini Pro 是性能最好的模型,用於廣泛的任務。它會為許多谷歌的 AI 服務提供動力,並且從今天起,成為 Bard 的支柱。
Gemini Nano 是最高效的模型,用於設備端任務,可以在安卓設備上本地和離線運行,Pixel 8 Pro 的用户就能馬上體驗到。其中,Nano-1 的參數為 1.8B,Nano-2 為 3.25B。
Gemini 最基本的模型能做到文本輸入和文本輸出,但像 Gemini Ultra 這樣更強大的模型,則可以同時處理圖像、視頻和音頻。
不僅如此,Gemini 甚至還能學會做動作和觸摸這種更像機器人的功能!
以後,Gemini 會獲得更多的感官,變得更加有意識,更加準確。
雖然幻覺問題仍然不可避免,但模型知道的越多,性能就會越好。
文本、圖像、音頻精準理解
Gemini 1.0 經過訓練,可以同時識別和理解文本、圖像、音頻等各種形式的輸入內容,因此它也能更好地理解細微的信息,回答與複雜主題相關的各類問題。
比如,用户先是上傳了一段非英語的音頻,然後又錄了一段英語的音頻來提問。
要知道,一般設計音頻的歸納,都是用文字輸入 prompt。而 Gemini 卻可以同時處理兩段不同語言的音頻,精準輸出所需要的摘要內容。
更厲害的是,如果我想做一個煎蛋,不僅可以用語音問 Gemini,還可以把手頭有的食材拍個照片一併發過去。
然後,Gemini 就會結合音頻中發送的需求,以及配圖中的食材,手把手教你該怎麼做好一個煎蛋。
甚至,每完成一步,都可以拍個照片,而 Gemini 則可以根據實際進度繼續指導下一步該做什麼。
手癌星人、不會做飯星人都有救了!
而且,這項能力還這使 Gemini 特別擅長解釋數學和物理等複雜學科的推理問題。
比如,家長想在輔導孩子作業的時候省點事,該怎麼辦呢?
答案很簡單,直接拍張圖上去,Gemini 的推理能力足以解決數學、物理等各類理科問題。
針對其中任何一個步驟,都可以追問 Gemini 來獲得更具體的解釋。
甚至,還可以就出錯的點,直接讓 Gemini 輸出一個和出錯類型相似的題目鞏固一下。
複雜推理輕鬆搞定
此外,Gemini 1.0 具有的多模態推理能力,可以更好地理解複雜的書面和視覺信息。這使得它在發掘埋藏在海量的數據中難以辨別的知識方面具有優越的性能。
通過閲讀、過濾和理解信息,Gemini 1.0 還能夠從成千上萬的文檔中提取出獨到的觀點,從而助力從科學到金融等眾多領域實現新的突破。
AlphaCode 2:編碼能力超 85% 人類選手
當然,基準測試終究只是測試,對 Gemini 的真正考驗,是想要用它來寫代碼的用户。
寫代碼,就是谷歌為 Gemini 打造的殺手級功能。
Gemini 1.0 模型不僅可以理解、解釋和生成世界上最主流的編程語言,比如 Python、Java、C++ 和 Go 的高質量代碼。同時它能夠跨語言工作,並對複雜信息進行推理。
從這一點看,Gemini 毫無疑問會成為世界領先的編程基礎模型之一。
兩年前,谷歌推出過一款叫做 AlphaCode 的產品,它也是第一個在編程競賽中達到具有競爭力水平的 AI 代碼生成系統。
而基於定製版的 Gemini,谷歌推出了更先進的代碼生成系統——AlphaCode 2。
在面對不僅涉及編程,還涉及複雜的數學和計算機科學理論等領域的問題時,AlphaCode 2 都表現出了卓越的性能。
在與初代 AlphaCode 同樣的測試平台上,谷歌的開發人員也對 AlphaCode 2 進行了測試。
結果顯示,新模型展現出了顯著的進步,解決的問題數幾乎是之前 AlphaCode 的兩倍。
其中,AlphaCode 2 編程的性能超過了 85% 的人類程序員,相比之下,AlphaCode 只超過了約 50% 的程序員。
不僅如此,當人類程序員與 AlphaCode 2 協作時,人類程序員為代碼樣例設定特定的要求,Alphacode 2 的性能會進一步提升。
AlphaCode 2 的運作依託於強大的 LLM,並結合了專為競賽編程設計的先進搜索和重排機制。
如下圖所示,新的模型主要由以下幾部分組成:
- 多個策略模型,用於為每個問題生成各自的代碼樣本;
- 採樣機制,能夠生成多樣化的代碼樣本,以在可能的程序解決方案中進行搜索;
- 過濾機制,移除那些不符合問題描述的代碼樣本;
- 聚類算法,將語義上相似的代碼樣本進行分組,以減少重複;
- 評分模型,用於從 10 個代碼樣本集羣中篩選出最優解。
詳情可參閲 Alpha Code 2 技術報告:
報告地址:https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
更可靠、更高效、可擴展
對谷歌來説同樣重要的是,Gemini 顯然是一個效率更高、更可靠、可擴展的模型。
它是在谷歌自己的張量處理單元上訓練的,比谷歌以前的模型(如 PaLM)運行起來更快、更便宜。
開發人員使用了谷歌內部研發的張量處理單元 TPU v4 和 v5e,在 AI 優化的基礎設施上對 Gemini 1.0 進行了大規模的訓練。
而可靠、可擴展的訓練模型和最高效的服務模型,就是谷歌做出 Gemini 的重要目標。
在 TPU 上,Gemini 的運行速度明顯快於早期規模較小、能力較弱的模型。這些定製設計的 AI 加速器是谷歌大模型產品的核心。
要知道,這些產品為搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數十億用户提供服務。它們還幫助了世界各地的科技公司經濟、高效地訓練大模型。
除了 Gemini,谷歌在今天還發布了迄今為止最強大、最高效,並且可擴展的 TPU 系統——Cloud TPU v5p,專為訓練尖端的 AI 模型而設計。
新一代 TPU 將加速 Gemini 的發展,幫助開發人員和企業客户更快地訓練大規模生成式 AI 模型,開發出新產品和新功能。
Gemini,讓谷歌再次偉大?
顯然,在 Pichai 和 Hassabis 看來,Gemini 的發佈僅僅是一個開始——一個更大的項目即將開啓。
Gemini 是谷歌一直在等待的模式,在 OpenAI 和 ChatGPT 接管世界後,Gemini 是谷歌探索一年得出的結論。
發佈「紅色警報」後,谷歌一直在追趕,但兩人都表示,不願意為了跟上步伐而走得太快,尤其是我們越來越接近 AGI。
Gemini 是否會改變世界?最好的情況是,它能幫谷歌在生成式 AI 競賽中趕上 OpenAI。
但劈柴、Hassabis 等人似乎都認為,這是谷歌真正偉大的開始。
今天發佈的技術報告,沒有透露架構細節、模型參數或訓練數據集。
艾倫人工智能研究所前 CEO Oren Etzioni 説,「沒有理由懷疑 Gemini 在這些基準上比 GPT-4 更好,但沒準 GPT-5 會比 Gemini 做得更好。」
打造像 Gemini 這樣的巨量模型,可能需要花費數億美元,但對於在通過雲提供 AI 佔據主導地位的公司來説,最終的回報可能是數十億甚至數萬億美元。
「這是一場不能失敗,必須打贏的戰爭。」
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
