A 6,000-word review: Google AI's fierce comeback - from Nano Banna, Genie 3, Veo 3 to Gemini 2.5

華爾街見聞
2025.09.04 02:00
portai
I'm PortAI, I can summarize articles.

Google 在 AI 領域的進展顯著,尤其是 Gemini 2.5 Pro 的推出,使其重新回到行業中心。過去一年,Google 從追趕者轉變為領跑者,推出了 Nano Banana、Veo 3 和 Genie 3 等強大產品,展示了其技術實力的轉化。本文將分析 Google 為何在 AI 賽道上突然崛起,探討其技術積累與產品化的過程。

一年前,Google 在 AI 賽道上還是「追趕者」的形象。ChatGPT 席捲硅谷時,它顯得遲緩。

但短短几個月後,情況突變。

Gemini 2.5 Pro 橫掃各大榜單,「香蕉」模型 Nano Banana 讓生圖、修圖成了輕鬆事;視頻模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句話生成一個虛擬世界。

Google 用一串「王炸」產品,重新站回牌桌中央。

這不禁讓人好奇:

Google 最近怎麼突然這麼猛了?

這其實並非一次突然的爆發,而是一場「大象轉身,技術變現」,Google 正以前所未有的決心和效率,將自己數十年積累的 AI 技術儲備,轉化為產品力。

更直白點説:Google 不是突然變強了,而是那個開創了 Transformer 模型架構時代的巨頭,正在小跑歸來。

接下來,本文將深入盤點 Google 在 AI 領域的進展,並分析為何 Google 最近會在 AI 賽道上「突然這麼猛了」。

全文將圍繞以下 4 個核心板塊展開:

【1】屠榜、奪金、重回王座的 Gemini 2.5 Pro

【2】左手「香蕉」生圖,右手 Veo 3 導演

【3】世界模型 Genie 3

【4】大象轉身,技術變現

屠榜、奪金、重回王座的 Gemini 2.5 Pro

我們先來看看基礎大語言模型,對於大多數人來説,這一波 Google 突然變這麼猛的「體感起點」,是 Gemini 2.5 Pro 系列的推出。

2022 年冬季,OpenAI 的實驗性 ChatBot 以日均百萬用户的增速掀起風暴,儘管頻繁鬧出事實性錯誤和簡單計算失誤,但其潛力開始「震撼」整個硅谷,也讓 Google 首次感受到了「後院起火」的壓力。

在那之後的一年多時間裏,Google 的姿態更像是一個略顯笨拙的「追趕者」。從倉促應戰的 Bard 到 Gemini 1.0 的初步嘗試,儘管一直在搞,但也一直被質疑。

比如説,當時外界的敍事是這樣的:

從「Google 會如何應戰?」變成了「Google 還行不行?」。

直到一個關鍵節點到來 —— Gemini 2.5 Pro 的正式推出,雖然之前推出的 Gemini 2.0 已經足夠強大,但還沒有逆轉用户心智。

到了現在這個節點,Google 才可以真正意義上説「找到了曾經那個,曾經定義了互聯網時代的技術巨頭,該有的地位」。

1)屠榜

6 個月前,2025 年 3 月,在第三方權威模型評測平台 LMSys Chatbot Arena 上,代號為「nebula」的 Gemini 2.5 Pro 橫空出世,強勢登頂,其 Elo 評分一度超越了包括 GPT-4o 和 Claude 3 Opus 在內的所有對手。

實現了真正意義上的屠榜。

這一表現被各路媒體廣泛解讀為 Google 在模型綜合實力上已經趕上甚至反超了競爭對手。

根據 LMSys 團隊的説法,這是「史上首次有模型同時制霸文本、視覺和 Web 開發三大榜單」,斬獲了名副其實的「三連冠」。

值得注意的是,LMSys 團隊的「Web 開發」模擬的是真實開發任務,並不僅僅限於 Coding 能力,而是構建交互式網頁應用,涵蓋前端(UI)、功能交互、依賴管理和完整應用結構。

在編程能力上,雖然從實用角度來看,「全面碾壓」的説法有待商榷,但多個基準測試和開發者反饋顯示,Gemini 2.5 Pro 在代碼生成、理解和調試等方面的能力已與業界頂尖的 Claude 3.7 不相上下,甚至在某些特定任務(如 LeetCode 風格的問題)上表現更為出色。

而且,在之後的每一次或大或小的發佈會上,Gemini 系列都是全面升級、再升級。

至此,所有的疑慮都煙消雲散。

Google 在大語言模型上的最關鍵核心能力上,已經重返第一梯隊。

2)奪金

除了 BenchMark 刷榜之外,AI 圈子其實非常在意一個基礎大模型,在一些廣泛接受社會關注的地方,能獲得什麼樣的成績。

簡單説就是,Gemini 在更具挑戰性的專業領域表現如何?

這裏,值得説道的就是國際數學奧林匹克競賽(IMO),一個時常被 AI 廠商拿出來搞「震驚體」的競賽。

一個經過特殊訓練、具備「深度思考(Deep Think)」能力的 Gemini 模型在 2025 年的國際數學奧林匹克競賽(IMO)中達到了金牌水平。Gemini 2.5 Deep Think 在 IMO 2025 中以滿分 42 分中的 35 分的成績,斬獲金牌,解出 6 題中的 5 題,直接超越 Grok 4 和 OpenAI o3 等對手。

與此同時,OpenAI 在正式發佈 GPT-5 前,同樣利用了最新的實驗性內部推理模型在 IMO 中斬獲金牌,而 Gemini 獲得了與該模型一致的分數。

這項成果展示了 Google AI 在複雜的、需要深度邏輯推理的任務上的潛力。

30 天前,這款 IMO 金牌模型上線 Gemini ChatBot,其實際表現被認為還要超過當時在 IMO 做競賽時的水準。

比利時數學家 Michel van Garrel 甚至用它在線演示如何使用深度思考能力證明猜想。

總的來看,基礎模型評測的高分,直觀地向開發者和技術社區展現了模型的強大實力。而 IMO 這類競賽的成功,則代表了 AI ,尤其是 Google 的 AI 在前沿推理領域的重大進步。

因此,Gemini 2.5 Pro 系列的發佈,可以看作是 Google 在這場 AI 競賽中的一個明確轉折點。

現在的 Gemini 不僅是個最好的 To C 產品之一,還是個能夠挑戰前沿的技術項目。

Google 開始向社區和市場宣告:他們不再是追趕者,其基礎模型開始正式領跑業界了。

左手「香蕉」生圖,右手 Veo 3 導演

如果説在純文本大模型上,Google 是「迎頭追上」,那麼在多模態(Multimodality)領域,Google 則憑藉其深厚的技術積累,展現出了「幾乎絕對領先」的態勢。

雖然 Gemini 模型從一開始就被設計為原生多模態,能夠無縫地理解和處理文本、代碼、圖像、音頻和視頻。但是,除了 Gemini 之外,Google 還擁有一系列強大的專用多模態模型。

我們先來看圖像(Image)領域的進展。

1)屬於一根香蕉的故事

在視覺推理上,Google 從 Gemini 1.5 Pro 開始就沒暫停過研究,到了 Gemini 2.5 Pro 時,其視覺推理能力就已經表現出極佳的水平。

而這一點非常明顯地融入進了 Google 的 Image 模型之中。

同樣是 6 個月前,2025 年 3 月,Google 在開源口碑極佳的 Gemma 3 模型之後,轉眼間就整出了一個 Gemini 2.0「用嘴改圖」—— Gemini 2.0 Flash Experimental,全網爆火。

這主要是因為大家發現它能聽得懂自然語言輸入,並有着強大的修改可控制性。

這個功能在當時很火爆,大量的內外網測評博主挖掘其潛力,也正是因為聚集了各路網友在各個領域的各種使用創新,Gemini 2.0 已經成了當時最酷的潮玩之一。

有趣的是,就在此功能發佈前不久,Google 推出的專有圖像生成大模型 Imagen 4 在業界並未激起預想中的巨大波瀾。許多人因此以為,那次「用嘴改圖」功能的更新,只是一次巧妙但規模不大的產品優化。

然而, Google 在 Image 領域的強勢突擊,沒有放棄,反而加快了。

Gemini 2.5 Flash Image(Nano Banana)

這場預想中的「衝鋒」並沒有讓人等待太久。

就在 1 周前,全球各大 AI 大模型競技場上,一個代號為「Nano Banana」的神秘圖像模型出現了,它在各項生成和編輯任務中表現出的水準,迅速引發了各個社區的熱議和猜測。

當時,一個主流的觀點便是:

這難不成又是 Google 的模型吧?

之所以有這樣的猜測,是因為它的表現幾乎「吊打」了市面上絕大多數同類產品。社區普遍相信,只有在多模態領域擁有如此深厚積累的 Google,才有可能拿出這樣的「怪物級」作品。

最終,謎底揭曉,「Nano Banana」正是 Gemini 2.5 Flash Image。

它展現了對「物體替換」的準確理解,不再只是「能畫出來」,而是能理解圖像中的關係,並在保持邏輯一致的前提下完成修改,完成了圖像和編輯能力的巨大質量提升。

像是一個非常流行的案例:用 Nano Banana 模型,將 13 張輸入圖片,融合成一張完整、風格一致的圖像:

除了圖像編輯能力之外,它展示了極佳的地點推理能力:

總而言之,Gemini 2.5 Flash Image 的出現,意味着:當其他廠商還在琢磨生成一張好看的圖片時,Google 已經開始讓 AI 理解並重構真實視覺世界了。

這麼説,並不誇張,因為 Google 視頻生成模型 Veo 3 的能力印證了這一説法。

2)Veo 3

Text、Image 之外,Video 模態領域裏,Google 同樣「太可圈可點」了。

在動態的 AI 視頻生成上,Google 用 Veo 3 補上了其多模態拼圖的最後一塊,也是最重要的一塊拼圖。

在 Veo 3 問世之前,市面上的所有視頻生成模型(包括 OpenAI 的 Sora 和 Google 早期的 Veo 版本、Runway 的 Gen-3、LUMA 的 DreamMachine)儘管效果驚豔,但普遍受限於 3 個瓶頸:時長過短、邏輯一致性差、可控性弱。

它們生成的更像是高質量的「動態圖片」片段,而非真正意義上的「影視敍事」。

然而,在 2025 年 5 月,Google 在 I/O 大會上正式發佈了 Veo 3,改變了遊戲規則。

其最大的技術創新,是實現了高保真的視頻與音頻同步生成,包括對話、音效與環境聲音,甚至被認為標誌着 AI 視頻生成正式「走出無聲電影時代」。

當時的一段 Veo 3 逼真脱口秀,爆火全網,讓我們印象深刻:

時至今日,儘管距發佈已過去了幾個月,Veo 3 在長視頻生成、邏輯連貫性和音畫同步方面,依然在行業內難逢對手。

《好萊塢報道》甚至撰文稱:

Veo 3 的出現,標誌着 AI 視頻生成技術已經從一個昂貴的「玩具」,演變成了一個可以被納入專業生產流程的工具。

現在,廣告公司開始利用它快速生成創意腳本的可視化樣片,獨立電影製作人則用它來創作傳統拍攝無法實現的奇幻視覺特效。

一年的追趕,就已經讓 Google 在多模態方向與 OpenAI 等頂尖 AI 基礎模型廠商,齊頭並進,甚至超越了它們。

就在一週前,知名風投機構 a16z 出了一份最新報告,是關於百大生成式 AI 消費應用排行榜的。在這份榜單裏,我們看到無論是在網頁端還是移動端,Gemini 的用户活躍度均已升至第二,僅次於 ChatGPT:

Google 在多模態領域的「領先」,不僅體現在單一模型的某個指標上,更體現在其將前沿技術迅速產品化、並創造出顛覆性用户體驗的綜合能力。

回顧過去 6 個月,用户們正一次一次地通過 Google 的 AI 基礎模型感受到「Aha Moments」,這本身就是最好的傳播放大器。

世界模型 Genie 3

如果説 Gemini 是 Google 在語言和多模態理解上的深耕,那麼 Genie 3 則展現了其在生成式 AI 和模擬現實方面的「對未來的投資」。這是一種純粹的、面向未來的投資。

這也是所有關注 AI 和科技的人們,對大廠應有的期許:

這才是科技大廠該乾的事,而 Google,更該如此。

Google DeepMind 推出的「通用世界模型」(General Purpose World Model)Genie 3 正是這一期許的產物。

它能通過一個文本提示詞生成可探索、可操控的 3D 虛擬世界,支持 720p 分辨率、24 FPS 實時渲染,並維持數分鐘的一致性與互動體驗。

其甚至被中外媒體稱為:有史以來最先進的世界模擬器。

用户可以在這個動態生成的世界裏實時移動和互動,體驗長達數分鐘且保持一致性的虛擬環境。

這項技術的革命性在於,它為訓練更通用的 AI Agent 打開了無限可能。

傳統的 AI 訓練需要大量預先構建好的環境,而 Genie 3 能夠「憑空」創造出無窮無盡、風格各異的訓練場。

這種能力,將徹底改變遊戲開發、影視製作的流程。更重要的是,它為實現能夠理解並適應複雜物理世界的通用 AI 打好了基礎。

比如,通用世界模型也將在汽車行業的自動駕駛訓練中,起到巨大作用。

從 2024 年初 Genie 1 誕生時的一篇論文《Genie: Generative Interactive Environments》橫空出世,到現在的 Genie 3,外界每一次都驚奇於 Google 在「多線程 AI 競爭」裏的表現。

估計很多人會喊出:

Google 怎麼還有精力搞世界模型啊?還搞的這麼好?

可以這麼説,在世界模型領域,Google 也先人一步拿走了通向 AGI 的又一個「旗子」。

正如 DeepMind CEO Demis Hassabis 所描述:

這種模擬環境將讓 Agent「在虛擬的心智世界裏進行學習,加速通向 AGI 的路徑。」

至此,可以説,一個「全盛期的 AI Google」正在走來。

大象轉身,技術變現

Google 在 AI 上發力的背後,當然也離不開組織架構的調整和人才策略的變化。

Google 旗下其實在過去 10 年中一直有 2 個頂尖技術團隊:

【1】Google Brain ,由 Jeff Dean 、斯坦福教授吳恩達和 Greg Corrado 發起;

【2】Google DeepMind,2014 年被谷歌買下的英國的 AI 初創企業。

2 支隊伍,在 Google 內部並不像外人所想象的那樣,達成了「Harmony」狀態。

2022 年底,OpenAI 發佈的 ChatGPT 讓 Google 沒辦法繼續忽略這種不協和。

短短几個月過後,來年 2023 年 4 月,Google 宣佈將原 Google Brain 團隊與 DeepMind 團隊合併,組建全新的 Google DeepMind 部門,由 DeepMind 聯合創始人 Demis Hassabis 出任 CEO。同時,Google Brain 負責人「大佬」Jeff Dean 升任 Google 首席科學家,專注於長期的 AI 研究工作。

這一合併,在當時被視為 Google 對 OpenAI 衝擊的回應,旨在集中優勢力量,避免內部重複競爭,加速 AI 科研成果產品化。

1)Google Labs

調用技術出身的高管升任管理者自然不是新鮮事,更值得關注的是 Google 內部的 Google Labs,這個部門如今的地位,已遠不止一個內部實驗室,它正被視為驅動 Google 未來的「AI 創新基因庫」。

Google Labs 的歷史可以追溯到 2002 年,它曾是工程師文化和「20% 時間」工作制的象徵,誕生了 Google Maps 和 iGoogle 等經典產品。然而,沉寂多年後,在 2023 年的 Google I/O 大會上,它被再度啓用,並迅速孵化各種「奇奇怪怪」的 AI 項目。

如今的 Google Labs 不再僅僅是一個創意的孵化器,更是一套「大廠 Native」的完整方法論:

【1】它為 Google 內部任何一個擁有奇思妙想的團隊提供了快速驗證的土壤,鼓勵他們去創造那些看似「異想天開」的 AI 項目。

【2】它打通了從一個原型概念到可供大眾體驗的產品之間的最短路徑,確保創新不會停留在演示階段。

【3】這裏是 Google 員工的「自由試驗田」。

正如我們盤點了 8 款非常有意思的產品。該平台孕育了一系列「小而美」卻極具潛力的產品,像是 NotebookLM 和 Whisk。

這些成功的項目證明了,當創新者被賦予足夠的自由度和資源時,他們的想象力能夠創造出巨大的價值。而 Google 也願意給這樣的一個平台。

所以,為什麼提到 Google Labs ?

因為,Google 再度將「創新」擺到了首位。

2025 年 4 月,原先負責 Bard 及 Gemini 應用整合的高管 Sissie Hsiao 卸任,接替她的,正是 Google Labs 的副總裁 Josh Woodward。

Woodward 的履歷與 Google Labs 的精神連接相當緊密。他正是那款「從誕生開始,就炸場各個技術社區、媒體平台」的 NotebookLM 項目幕後推動者之一。

讓這樣一位「產品極客」和創新實踐者,掌管 Gemini ,Google 的意圖十分明確:

Google 不能再滿足於僅僅展示其模型的技術能力,而是迫切需要將這些能力轉化為用户可感知的、能夠贏得市場的超級應用。

總之,Google 內部,即便是高層,也在賽馬機制中不停調整,將更能執行「創新戰略」的人才放在關鍵位置。

2)技術不再只為科研而生

以前 DeepMind 以學術研究見長,發表了許多劃時代論文(如 AlphaGo、Transformer 等),Brain 團隊也貢獻了大量開源成果(TensorFlow 等)。

但是現在 Google 更加重視商業競爭力,據報道 Google DeepMind 開始對研究發表設置更嚴格的審核,以避免泄露有價值的創新或暴露短板給競品。

被稱為「ChatGPT 奠基之作」的 Transformer 模型架構,在推出後不久,其八位著名作者(人稱 Transformer 八子)在 2023 年均已離開谷歌,創辦了自己的公司。

過去,這或許被看作是 Google「為他人作嫁衣」的遺憾。

但現在,視角已經改變:一方面,這證明了 Google 作為「AI 界的黃埔軍校」為整個行業孕育了核心人才,其技術影響力早已超越公司邊界;另一方面,這也促使 Google 痛定思痛,比以往任何時候都更重視「不放掉一個關鍵人才」。

在與 Meta 的人才爭奪戰中,Google 開始轉變態度,竭盡全力「不流失人才」。

比如,有報道提到 Google DeepMind 為核心研究者提供每年高達 $20 million 的薪酬方案,還縮短股權歸屬週期至 3 年。

3)AI-First 公司

組織架構上,Google 把 AI 提升到了前所未有的戰略高度。

CEO Sundar Pichai 多次強調 Google 是「AI-first」公司,如今更將 AI 視為整個公司未來的核心。Google 在內部成立了各種 AI 工作組,將搜索、廣告、雲等部門的資源向 AI 傾斜。

將最優秀的工程師、最大規模的 TPU 計算集羣,優先供給 Gemini 等核心 AI 項目。所有核心產品線,從搜索、廣告、雲,到 Android、YouTube、硬件(Pixel),都必須回答一個問題:

你的 AI 戰略是什麼?

然後,舊的部門牆開始被打破。

Google 搜索部門與 DeepMind 團隊的工程師坐在一起,共同開發搜索生成體驗(SGE);Google Cloud 則將所有 AI 能力,從 AutoML 到算法交易,全部整合進 Vertex AI(Google 雲 AI 平台)這一統一平台,為企業客户提供端到端的 AI 解決方案。這種跨部門的深度協作,極大地提升了協同效率,避免了過去各自為戰的局面。

正如 Bloomberg 的一篇文章標題所説,Google DeepMind 正從過去的「研究實驗室」轉型為「AI 產品工廠」。

這一轉變,對於 Google 應對外部競爭、整合內部力量來説,目前看成效很好。因為,即便是 Google 在短時間內推出瞭如此多 AI 模型、產品更新,沒有很好的統籌和執行是難以實現的。

總之,在整合一切能整合的力量後,Google 的 AI 組織文化也發生了一些轉變,也正是我們最開始提到的:

Google 開始將技術積累,全部變現。

我們現在看到的,是一個褪去浮華、目標明確、執行力驚人的全新 Google。

可以預見,在未來的半年到一年裏,我們將迎來一個「更高調、更快、更強」的 Google。

Fusion Fund 創始合夥人張璐就提到過一個細節:

表面上看,OpenAI 搶得先機,但很多人忽略了,Google 在大公司中才是最深的一個 —— 既有縱向的研究深度,也有橫向的技術廣度。

所以,當 Google 把這份深度與廣度真正轉化為產品勢能,它的迴歸就不再令人意外。

從「過去 5 年,Google 再沒做出革新產品」的質疑,到「AI 時代,Google 會被 OpenAI 搖搖甩在身後,成為眾人口中的傳統企業」,再到如今在基礎模型、多模態、世界模型、應用產品四線並進。

Google 用了不到 1 年的時間,向世界重新證明了一件事:Google 還是那個 Google,它正在將積蓄已久的力量,毫無保留地注入到產品之中。

這一次,它不僅回到了牌桌,更帶來了那種久違了的,用技術説話的「從容」。

本文作者:鏡山,來源:十字路口 crossing,原文標題:《6000 字覆盤:Google AI 變猛記——從 Nano Banna、Genie 3、Veo 3 到 Gemini 2.5 的絕地反擊》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。