4050 億參數!Meta 或將 7 月 23 日發佈迄今最強大 Llama 3 模型

華爾街見聞
2024.07.12 21:03
portai
I'm PortAI, I can summarize articles.

今年 4 月發佈 8B 和 70B 兩個版本的 Llama 3 模型時,Meta 預告,該模型最大參數規模超 4000 億,訓練 token 超 15 萬億。本週五媒體獲悉,4050 億參數的 Llama 3 也將是多模態模型,未透露是否開源。

本文作者:李丹

來源:硬 AI

不到兩週後,我們可能就會見到迄今為止最強大的開源 Llama 3 模型。

美東時間 7 月 12 日週五,媒體援引一名 Meta Platforms 的員工消息稱,Meta 計劃 7 月 23 日發佈旗下第三代大語言模型(LLM)Llama 3 的最大版本。這一最新版模型將擁有 4050 億參數,也將是多模態模型,這意味着它將能夠理解和生成圖像和文本。該媒體未透露這一最強版本是否開源。

Meta 公司拒絕對上述消息置評。週五盤中,低開的 Meta 股價跌幅收窄,盤初曾跌 3.6%,此後跌幅曾收窄到不足 2%,但尾盤跌幅擴大,收跌 2.7%,在週四大幅回落超 4% 後連跌兩日,刷新 6 月 21 日以來收盤低位。

去年 7 月 Meta 發佈的 Llama 2 有三個版本,最大版本 70B 的參數規模為 700 億。今年 4 月,Meta 發佈 Llama 3Meta,稱它為 “迄今為止能力最強的開源 LLM”。當時推出的 Llama 3 有 8B 和 70B 兩個版本。

Meta CEO 扎克伯格當時稱,大版本的 Llama 3 將有超過 4000 億參數。Meta 並未透露會不會將 4000 億參數規模的 Llama 3 開源,當時它還在接受訓練。

對比前代,Llama 3 有了質的飛躍。Llama 2 使用 2 萬億個 token 進行訓練,而訓練 Llama 3 大版本的 token 超過 15 萬億。

Meta 稱,由於預訓練和訓練後的改進,其預訓練和指令調優的模型是目前 8B 和 70B 兩個參數規模的最佳模型。在訓練後程序得到改進後,模型的錯誤拒絕率(FRR)大幅下降,一致性提高,模型響應的多樣性增加。 在推理、代碼生成和指令跟蹤等功能方面,Llama 3 相比 Llama 2 有極大改進,使 Llama 3 更易於操控。

4 月 Meta 展示,8B 和 70B 版本的 Llama 3 指令調優模型在大規模多任務語言理解數據集(MMLU)、研究生水平專家推理(GPQA)、數學評測集(GSM8K)、編程多語言測試(HumanEval)等方面的測評得分都高於 Mistral、谷歌的 Gemma 和 Gemini 和 Anthropic 的 Claude 3。8B 和 70B 版本的預訓練 Llama 3 多種性能測評優於 Mistral、Gemma、Gemini 和 Mixtral。

當時社交媒體的網友評論稱,根據基準測試,當前的 Llama 3 模型不完全是 GPT-4 級別的,但仍在訓練中的較大尺寸的模型將達到 GPT-4 級別。

英偉達高級科學家 Jim Fan 認為,Llama 3 的推出已經脱離了技術層面的進步,更是開源模型與頂尖閉源模型可分庭抗禮的象徵

從 Jim Fan 分享的基準測試可以看出,Llama 3 400B 的實力幾乎媲美 Claude“超大杯” 以及新版 GPT-4 Turbo,將成為 “分水嶺”,相信它將釋放巨大的研究潛力,推動整個生態系統的發展,開源社區或將能用上 GPT-4 級別的模型

此後有消息稱,研究人員尚未開始對 Llama 3 進行微調,還未決定 Llama 3 是否將是多模態模型;正式版的 Llama 3 將會在今年 7 月正式推出。

不同於 OpenAI 等開發商,Meta 致力於開源 LLM,不過,這個賽道也越來越擁擠。谷歌、特斯拉 CEO 馬斯克旗下的 xAI 和 Mistral 等競爭對手也發佈了免費的 AI 模型。

Llama 3 問世後,同在 4 月亮相的4800 億參數模型 Arctic擊敗 Llama 3、Mixtra,刷新了全球最大開源模型的紀錄。

Arctic 基於全新的 Dense-MoE 架構設計,由一個 10B 的稠密 Tranformer 模型和 128×3.66B 的 MoE MLP 組成,並在 3.5 萬億個 token 上進行了訓練。相比 Llama 3 8B 和 Llama 2 70B,Arctic 所用的訓練計算資源不到它們的一半,評估指標卻取得了相當的分數。