
Alphabet-C's GPT Killer: "The Most Powerful Model" Gemini Shows Its Potential, Expected to be Released in Autumn

媒體爆料稱,谷歌 “全新大殺器” Gemini 結合了 GPT-4、Midjourney、Stable Diffusion 三大模型的能力,還能夠提供分析圖表、創建帶有文本描述的圖形、使用文本或語音命令控制軟件。
谷歌的全新大殺器 Gemini,即將和全世界見面了!
據傳,Gemini 不僅能像 GPT-4 一樣可以進行文本對話,還融合了 Midjourney、Stable Diffusion 的能力,能夠生成圖像。

為了對抗 OpenAI,谷歌 CEO 劈柴在今年 4 月邁出了絕非尋常的一步,將擁有完全不同文化和代碼的團隊——谷歌大腦和 DeepMind 合併。
現在,集結了數百位工程師的谷歌復仇者聯盟已經全軍待命,日夜趕工,只為狙擊 OpenAI 的 GPT-4,一舉重奪 AI 領域的頭把交椅。
谷歌創始人謝爾蓋·布林也已重回戰壕,親自操刀 Gemini 的訓練。據稱,今年秋天,Gemini 就會面世,而谷歌的考驗也即將到來。
復仇者聯盟名單已被曝出
押注 Gemini,打造 GPT-4 最強殺手
根據知情人士的爆料,Gemini 將 LLM 的文本能力與文生圖的能力相結合。也就是説,它相當於 GPT-4 和 Midjourney/Stable Diffusion 的合體版。
這也是外界首次聽説,Gemini 具有如此強大的繪圖能力。另外,它還能夠提供分析圖表、創建帶有文本描述的圖形、使用文本或語音命令控制軟件。
在 6 月底,谷歌 DeepMind CEO Hassabis 也曾爆料,Gemini 將結合進 AlphaGo 和大語言模型,而谷歌 DeepMind 已經準備好砸進數千萬美元,甚至數億。
Gemini 會整合使用了強化學習和樹搜索的 AlphaGO,以及機器人、神經科學等領域的技術。

可以説,谷歌把重注押在了 Gemini 身上,Gemini 會為 Bard 聊天機器人提供動力,推動 Google Docs、Slides 等企業級應用。另外,谷歌還希望通過雲服務器租賃服務,向開發者收取訪問 Gemini 的費用。

目前,谷歌雲通過 Vertex AI 產品售賣對谷歌 AI 模型的訪問如果這些新功能實現,谷歌很有可能會趕上微軟。
畢竟,微軟在 AI 產品上已經領先不少,Office 365 應用中包含 AI 功能,其應用程序也會對用户出售對 ChatGPT 的訪問權限。
彭博社風投分支 Bloomberg Beta 的 AI 初創企業投資人 James Cham 對彭博社表示,「過去 9 個月裏,每個人都在問這樣一個問題:什麼時候才能有一家公司,看起來有趕超 OpenAI 的可能?」「現在,終於似乎有一個模型,可以和 GPT-4 旗鼓相當了。」
谷歌,被迫走出舒適區
隨着 OpenAI 的崛起,谷歌也不得不在保證核心搜索業務的情況下,試着推出新的技術了。
據內部人士透露,在推出 Gemini 之前,谷歌很可能就會在某些產品中使用它。
過去,谷歌會使比較簡單的模型來改進搜索,但是像 Bard 以及 Gemini 這樣的產品,需要通過分析大量圖像和文本,來生成更像人類的回答。如此海量數據所帶來的潛在鉅額服務器成本,也是谷歌必須要控制的。

更新之後的 Bard,更強大了
手握YouTube的優勢
根據 The Information 報道,谷歌對 Gemini 進行了大量 YouTube 視頻的訓練。
並且,Gemini 還可以把音頻和視頻集成到模型自身,形成多模態能力,而後者,已經被許多研究者認為是 AI 的下一個前沿。
比如,根據 YouTube 視頻訓練的模型,可以幫助機械師根據視頻診斷汽車的維修問題。或者可以根據用户想要創建網站或應用程序的草圖,來生成軟件代碼。此前,OpenAI 曾展示了 GPT-4 的這項功能,但目前尚未推出。

OpenAI 老闆 Greg Brockman 曾演示 GPT-4 讀圖寫網頁代碼的能力,但似乎鴿了使用 YouTube 內容,還可以幫助谷歌開發更先進的文本轉視頻軟件,根據用户想看的內容描述,自動生成詳細的視頻。
這類似於谷歌支持的初創公司 RunwayML 正在開發的技術,現在好萊塢的內容創作者們都在密切關注這項技術的發展。
Google DeepMind,發起全面反擊
2011 年,谷歌創立了谷歌大腦(Google Brain),旨在構建起谷歌自己的 AI,來優化搜索的結果、廣告精準投放,以及在 Gmail 中的自動填充等功能。
而位於倫敦的 DeepMind 則更多地致力於學術研究——2016 年 Alpha Go 以 4 比 1 的成績戰勝了李世石,這項工作被人們視為通向通用人工智能(AGI)道路上的重要里程碑。谷歌除了會用 DeepMind 開發的軟件提高數據中心的運行效率外,DeepMind 的工作並沒有對其核心產品產生太大影響。
但在去年年底,一切都改變了。

2022 年 11 月,OpenAI 發佈了 ChatGPT,短短几周內用户人數飆升到了數千萬,之後更是達成了用户破億最短時間的成就。
幾個月內,OpenAI 的收入就達到數億美元,並且在這期間微軟新投資了 100 億美元、數不清的資本熱錢向着 OpenA 流去,OpenAI 的市值、知名度都達到了一個前所未有的高度。
這時,谷歌才意識到,自己在 AI 領域的領導地位已經岌岌可危了。
谷歌大腦+DeepMind=?
今年 4 月,陷入被動的谷歌放出終極大招:谷歌大腦和 DeepMind 正式合併!
「王不見王」的兩大部門居然合體了,這一舉動也是讓瓜眾們驚掉了下巴。

合併後的 Google DeepMind 將由 DeepMind 首席執行官 Demis Hassabis 領導,而前谷歌 AI 負責人 Jeff Dean 接任首席科學家一職。

現在,至少有 26 名大佬正在負責 Gemini 的開發,這些人包括曾在谷歌大腦和 DeepMind 工作的研究人員。知情人士稱, DeepMind 的兩位高管 Oriol Vinyals 和 Koray Kavukcuoglu,將和前谷歌大腦負責人 Jeff Dean 一起負責 Gemini 的開發。他們將監督數百名參與 Gemini 開發的員工。

另外,谷歌的聯合創始人謝爾蓋·布林也老將出馬,久違地迴歸了。

謝爾蓋·布林和拉里·佩奇他一直在對 Gemini 模型進行評估,並幫助員工訓練模型。據爆料,在團隊發現 Gemini 意外地接受了潛在攻擊性內容的訓練後,布林也參與到了重新訓練模型的技術決策過程中。
「意外聯姻」的陣痛
隨着谷歌大腦和 DeepMind 的合併,新團隊很快就遇到了非常嚴峻的問題——代碼怎麼合併,用誰家的軟件開發?畢竟,這兩個部門的代碼庫在之前是完全獨立的。
雖然雙方在各讓一步之後達成了妥協:
- 在模型的預訓練階段,使用谷歌大腦用於訓練機器學習模型的軟件 Pax
- 在後期階段,使用 DeepMind 用於開發模型的軟件 Core Model Strike 但據內部人士爆料,還是有不少員工因為不得不使用自己不熟悉的軟件而憤憤不平。
除此之外,谷歌和 DeepMind 都針對 ChatGPT 開發了自己的模型。DeepMind 着手開展了一個代號為 Goodall 的項目,旨在使用未公開模型 Chipmunk 的不同變體來開發一個與 ChatGPT 競爭的系統。而谷歌大腦則開發立項了 Gemini。
最終,DeepMind 決定放棄自己原先的努力,選擇基於谷歌大腦的項目合作開發 Gemini。有趣的是,在遠程工作的政策上,據説谷歌大腦的態度也要比 DeepMind 寬鬆得多。
內耗、狼狽、反攻
比起 OpenAI 那邊的形勢一片大好,谷歌則陷入了一場精疲力盡的內耗中。先是一連多個高級技術人才出走,如 Liam Fedus、Barret Zoph 和 Luke Metz 等在內的研究人員,紛紛選擇加入 OpenAI。雖然谷歌找回了一些人才:比如重新招回了 Jacob Devlin 和 Jack Rae。Jacob Devlin 批評 Bard 的開發後,在今年 1 月份去了 OpenAI。而 Jack Rae 是前 DeepMind 的研究員,在 2022 年加入了 OpenAI。

此前,Devlin 向劈柴、Dean 等高管表達了對 Bard 團隊使用 ChatGPT 數據訓練的擔憂,隨後辭職接着,谷歌為了對抗一枝獨秀的 ChatGPT,也為了重回人工智能賽道領航者的地位,在今年 2 月的時候匆忙發佈了聊天機器人 Bard。然而,發佈會卻因一個低級的事實性錯誤慘遭翻車,導致公司的市值在一夜之間蒸發了千億美元。谷歌的第一次反攻,以狼狽收尾。
到了 5 月,谷歌 I/O 大會上發佈了全新的 PaLM 2 模型,大大改進了 Bard 回答問題和生成代碼的能力。
同時發佈的,還有將生成式 AI 和自己傳統搜索服務結合起來的 Search Generative Experience(SGE)。簡單來説,SGE 是一個類似 Bing Chat 的 AI 搜索服務,但並沒有直接使用新的聊天窗口,而是將 AI 生成的內容集合在搜索結果中展示給用户。

也就是説,在搜索的同時,谷歌會利用 AI 為搜索的內容提供説明,回答用户提出的問題,幫用户做旅行規劃等等。
而用户不再需要貨比三家般的在多個鏈接之間來回跳轉,也不用花心力去判斷哪個鏈接背後的信息是真的,因為所有可用的內容都被集中到了 AI 收集到的回覆之中。

在最近的更新中,谷歌添加了讓 SGE 在 AI 生成的回覆內容中附加圖片和視頻的功能,幫助用户更加直觀的瞭解自己搜索的知識和信息。
就像 Bing Chat 一樣,SGE 的 AI 響應中也會有標註了發佈時間的鏈接,來支持由 AI 生成的回覆內容。如果用户對於相關的信息感興趣,點擊鏈接就能更加全面地瞭解具體的內容。

在 AI 生成的回覆中,對於很多知識性的信息和概念,用户能夠直接通過鼠標的懸停,就能獲取到概念準確的定義。
現在針對科學,歷史,經濟等知識性問題的 AI 回覆,都已經上線這個功能。

而對於需要瀏覽很冗長的網頁信息來學習或者瞭解信息的用户,SGE 還更新了一個網頁內的 AI 概括功能——SGE while browsing。
這個功能相當於給用户提供了一個隨時聽候差遣的「大綱生成器」。
對於任何篇幅比較長的網頁內容,用户都可以用它來生成大綱,快速掌握要點。在下方的 Explore the Page 部分,用户還能看到和頁面內容相關的問題。如果用户對於問題感興趣,直接點擊,就能看到文章中內容是如何解答這些問題的。

然而,是由於谷歌保守的市場策略,SEG 目前只允許美國本土的用户採用 Waiting List 申請測試。
所以可能大部分用户甚至都不知道,谷歌已經推出了這樣一個服務。總之,據悉兩部門合體後,至少測試了 21 項生成式 AI 工具,甚至還包含為用户提供生活建議和心理輔導的工具。
在去年緊急解僱了聲稱聊天 AI 有意識的工程師的谷歌,現在居然也開始探索這類「敏感」地帶,可見真的是決定放手一搏了。
Gemini項目,目前形勢大好
不過,兩個團隊的合併,對於一些正在負責 Gemini 項目的工程師來説,確實是個不小的驚喜。
曾在 DeepMind 工作的 James Molloy 和 Tom Hennigan 與谷歌資深研究員 Paul Barham 一起負責基礎設施。
Timothy Lillicrap 曾在 DeepMind 從事國際象棋和圍棋方面的系統開發工作,而谷歌大腦的研究員 Emily Pitler 則領導一個團隊,專注於使 LLM 具備處理數學或網絡搜索等專門任務的能力。
但除了合併組織中的人員安排問題,Gemini 團隊在開發過程中還面臨着巨大的挑戰,如確定可以用於模型訓練的數據等。
因此,谷歌的律師們一直在密切評估這項訓練工作。在一個案例中,由於擔心版權持有者的反對意見,律師們要求研究人員刪除了來自教科書的訓練數據。而這些數據本可以幫助訓練模型回答有關天文學或生物學等領域的問題。
不過,谷歌前高管、VC 公司 Felicis Ventures 的創始人 Aydin Senkut 評價 Gemini 的發佈讓他看到了「谷歌決心再次走在最前沿,而不是極度保守」。
Aydin Senkut 也十分贊同谷歌的決定:「這是正確的方向。最終,他們會火的。」
本文來源:新智元,原文標題:《GPT-4 大殺器谷歌 Gemini 來襲!26 位研發大佬名單曝出,祭出類 Midjourney 生圖能力》
