谷歌 PaLM 2 細節曝光：3.6 萬億 token，3400 億參數

谷歌上週發佈的大型語言模型 PaLM 2 使用的訓練數據幾乎是其前身的五倍，使其能夠執行更高級的編碼、數學和創意寫作任務。

谷歌最新大語言模型PaLM 2，更細節內幕被曝出來了！

據 CNBC 爆料，訓練它所用到的 token 數量多達3.6 萬億。

這是什麼概念？

要知道，在去年穀歌發佈 PaLM 時，訓練 token 的數量也僅為 7800 億。

四捨五入算下來，PaLM 2 足足是它前身的近 5 倍！

（token 本質是字符串，是訓練大語言模型的關鍵，可以教會模型預測序列中出現的下一個單詞。）

不僅如此，當時谷歌發佈 PaLM 2 時，只是提到 “新模型比以前的 LLM 更小”。

而內部文件則是將具體數值爆料了出來——3400 億個參數（初代 PaLM 是 5400 億）。

這表明，谷歌通過技術 “buff 加持”，在參數量更小的情況下，讓模型可以更高效地完成更復雜的任務。

雖然在已經維持了數月的 AIGC 大戰中，谷歌一直 “全軍出擊”，但對於訓練數據的大小或其他細節信息，卻是遮遮掩掩的態度。

而隨着這次內部文檔的曝光，也讓我們對谷歌最 in 大語言模型有了進一步的瞭解。

PaLM 2 要在廣告上發力了

關於谷歌上週發佈 PaLM 2 的能力，我們就不再詳細的贅述（可點擊此處瞭解詳情），簡單總結下來就是：

至於使用方面，谷歌在發佈會中就已經介紹説有超過 25 個產品和應用接入了 PaLM 2 的能力。

具體表現形式是 Duet AI，可以理解為對標微軟 365 Copilot 的一款產品；在現場也展示了在 Gmail、Google Docs、Google Sheets 中應用的能力。

而現在，CNBC 從谷歌內部文件中挖出了其在 PaLM 2 應用的更多計劃——進軍廣告界。

根據這份內部文件，谷歌內部的某些團隊現在計劃使用 PaLM 2 驅動的工具，允許廣告商生成自己的媒體資產，併為 YouTube 創作者推薦視頻。

谷歌也一直在為 YouTube 的青少年內容測試 PaLM 2，比如標題和描述。

谷歌在經歷了近 20 年的快速發展後，現在已然陷入了多季度收入增長緩慢的 “泥潭”。

也由於全球經濟大環境等原因，廣告商們也一直在在線營銷預算中掙扎。

具體到谷歌，今年大多數行業的付費搜索廣告轉化率都有所下降。

而這份內部文件所透露出來的信號，便是谷歌希望抓住 AIGC 這根救命稻草，希望使用生成式 AI 產品來增加支出，用來增加收入並提高利潤率。

據文件顯示，AI 驅動的客户支持策略可能會在 100 多種谷歌產品上運行，包括 Google Play 商店、Gmail、Android 搜索和地圖等。

不過話説回來，包括谷歌在內，縱觀大多數大語言模型玩家，一個較為明顯的現象就是：

對模型、數據等細節保密。

這也是 CNBC 直接挑明的一個觀點。

雖然很多公司都表示，這是因為業務競爭所導致的，但研究界卻不這麼認為。

在他們看來，隨着 AIGC 大戰的持續升温，模型、數據等需要更高的透明度。

而與之相關的話題熱度也是越發的激烈。

例如谷歌 Research 高級科學家 El Mahdi El Mhamdi 便於二月份辭職，此舉背後的原因，正是因為他覺得公司缺乏透明度。

無獨有偶，就在 OpenAI CEO Sam Altman 參與聽證會期間，便 “反向” 主動提出立法者進行監管：

如果這項技術出了問題，那就可能會是大問題……我們希望合作，防止這種情況發生。

截至發稿，對於 CNBC 所爆料的諸多內容，谷歌方面暫未做出回應。

本文作者：金磊，來源：量子位，原文標題：《谷歌 PaLM 2 細節曝光：3.6 萬億 token，3400 億參數》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。