Meta was reported to release new image and video AI models in the first half of next year, researching and developing world models

華爾街見聞
2025.12.18 22:46
portai
I'm PortAI, I can summarize articles.

媒體稱,Meta 正開發代號為 Mango 的新一代圖像和視頻 AI 模型,以及以提升編程能力重點之一的代號 Avocado 大語言模型。上週報道稱 Meta 在開發的 Avocado 可能採用專有而非開源模式,標誌着 Meta 長期堅持的開源戰略發生重大轉變。

社交媒體巨頭 Meta 傳出在 AI 競爭中發力的最新消息,反映其在戰略重心從開源模式轉向追求前沿盈利模型的轉變。

美東時間 18 日週四媒體報道,Meta 的首席 AI 官 Alexandr Wang 在週四的內部問答會上披露,Meta 正在開發代號為 Mango 的新一代圖像和視頻 AI 模型,以及代號為 Avocado 的下一代大語言模型(LLM),預計將於 2026 年上半年發佈。

Wang 表示,Avocado 模型的重點之一是提升編程能力,同時公司正處於研究開發世界模型的早期階段。世界模型是一種通過吸收視覺信息來學習環境的 AI 技術。

這一消息進一步印證了 Meta 在 AI 領域的戰略調整。上週華爾街見聞就提到,有報道稱,Meta 正在開發新的前沿 AI 模型 Avocado,訓練模型時採用了使用了阿里巴巴的通義千問(QWEN)等第三方模型進行優化,且可能採用專有而非開源模式。這與 Meta 此前主推的開源 Llama 系列形成鮮明對比。

為推動 AI 研發,Meta 在今年夏天重組了 AI 團隊,聘請 Alexandr Wang 領導新成立的超級智能部門 Superintelligence Labs。CEO 扎克伯格還親自從 OpenAI 挖走了 20 多名研究人員,組建了一支超過 50 人的 AI 專家團隊。

雙模型佈局:圖像生成與語言能力並進

據本週四的報道,Meta 正在同步推進兩個核心 AI 模型的開發。圖像和視頻模型 Mango 旨在增強 Meta 在生成式 AI 領域的競爭力,而文本模型 Avocado 則專注於提升編程等關鍵能力。

圖像生成已成為大型 AI 公司競爭的關鍵戰場。

谷歌今年 8 月末推出了基於 Gemini 2.5 Flash 模型的 AI 圖像生成及編輯工具——Nano Banana,推動 Gemini 月活躍用户從 7 月的 4.5 億增至 10 月底的超 6.5 億。

Meta9 月 25 日推出了與 Midjourney 合作開發的 AI 視頻生成器 Vibes,不到一週,OpenAI 就發佈了自己的視頻生成應用 Sora。

OpenAI CEO Sam Altman 在上週與記者會面時強調了 AI 圖像生成對消費者的重要性,稱這是許多用户的主要興趣點,也是讓他們持續回訪的"粘性"功能。

戰略轉向:從開源到專有模式

據上週的報道,Meta 的 AI 戰略正在發生重大轉變。公司內部許多人原本預計 Avocado 模型會在今年年底前發佈,但計劃已推遲至 2026 年第一季度。

報道稱,Avocado 可能採用專有模式,這意味着外部開發者無法自由下載其權重和相關軟件組件。此舉若最終實施,將標誌着該公司長期以來堅持的開源戰略發生顯著轉變,其做法將更接近谷歌與 OpenAI 等主要競爭對手的模式。

報道稱,這一轉變的催化劑之一是 Llama 4 在 4 月發佈後未能贏得開發者青睞。此外,中國 AI 新星 DeepSeek 發佈的 R1 模型採用了 Llama 架構的部分內容,這讓 Meta 部分員工感到不滿,進一步凸顯了開源策略的風險。

扎克伯格去年曾預測 Llama 系列將成為"業內最先進"的模型,並在今年 1 月的財報電話會議上專門討論了 Llama。但在 10 月的最新財報會議上,他僅提及該品牌一次。

Meta 今年 6 月豪擲 143 億美元投資 Scale AI,挖來了這家獨角獸的創始人汪韜(Alexandr Wang),並在 10 月末公佈三季報時將今年的公司資本支出指引上調至 700 億至 720 億美元。

世界模型:AI 理解物理世界的新前沿

澎湃新聞此前介紹,世界模型的靈感源於人類的世界心智模型,人類通過感官獲取的抽象信息在大腦中被轉化為對周圍世界的具象理解,基於這些模型,大腦對世界進行預測,從而影響感知和行動。

英偉達指出,世界模型是用於理解現實世界動態的神經網絡,包括物理屬性和空間屬性。它們可以使用文本、圖像、視頻和運動等輸入數據來生成模擬實際物理環境的視頻,能夠為人工智能提供理解真實三維物理世界的能力,對具身智能的實現具有重大意義。

不過,世界模型面臨顯著的技術挑戰。與目前用於生成式模型的計算量相比,訓練和運行世界模型需要龐大的算力。世界模型也存在幻覺問題,並會內化訓練數據中的偏見。如果這些障礙被克服,世界模型可以為機器人技術和 AI 決策帶來突破,使 AI 能夠對所處情境形成理解並推理出可能的解決方案。