
The big news is here! Llama 4 is embroiled in a ranking controversy: "internal employees" post accusations, and the evaluation version is alleged to be a special supply?

I'm PortAI, I can summarize articles.
Meta 新發布的 Llama 4 模型引發爭議,內部員工指控其性能未達標,並稱公司在訓練後期通過混入測試數據來 “優化” 結果以達到目標。該員工因無法接受這種做法辭職,並要求不在技術報告中署名。用户反饋也顯示 Llama 4 表現不佳,TechCrunch 質疑其測試版本的誤導性。此事件引發了對 AI 研發誠信的廣泛討論。
新瓜,主角是昨天剛剛發佈的 Meta 旗艦大模型——Llama 4。
內部爆料:性能不達標,壓力下欲 “優化” 結果?
首先引爆討論的是一篇來自 “一畝三分地” 論壇的帖子,發帖人自稱是參與 Llama 4 訓練的內部員工,並表示已因此辭職。

帖子內容信息量很大,主要説了幾點:
-
1. 性能瓶頸: 儘管團隊反覆努力訓練,Llama 4 的內部模型性能始終無法達到開源 SOTA(State-of-the-Art,頂尖水平)基準,差距明顯。 -
2. “曲線救國” 策略: 公司領導層提出,在訓練後期,將各種基準測試的 “測試集” 數據混入訓練或微調數據中。這樣做的目的很直接——在各項指標上達成目標,交出一份 “看起來很美” 的成績單 -
3. Deadline 壓力: 這個 “刷分” 任務有明確的時間線——4 月底。如果屆時無法達成目標,後果可能很嚴重 -
4. 用户反饋不佳: Llama 4 發佈後(帖子發佈於模型剛發佈時),X 和 Reddit 上已有不少用户反饋,實際測試效果非常糟糕 -
5. 學術底線與辭職: 發帖人表示,自己有學術背景,無法接受這種 “為了達標而污染測試數據” 的做法,因此提交了辭職,並明確要求不要將自己的名字寫入 Llama 4 的技術報告 -
6. 高管動向(帖中提及): 帖子還提到,Meta 的 AI 副總裁(VP of AI)也因類似原因辭職。(博主注:此為帖子單方面説法,需注意辨別)
這篇帖子迅速引發了圈內關注,大家都在討論這種做法是否違背了 AI 研發的基本誠信
這是後續,真實情況還有待於觀察

外部觀察:TechCrunch 質疑測試版本 “誤導性”
無獨有偶,知名科技媒體 TechCrunch 也發文,標題直指 Meta 新 AI 模型的性能測試 “有點誤導人”。
TechCrunch 的文章主要聚焦於 Llama 4(即 Maverick)在著名的人類評估排行榜 LM Arena 上的表現。Maverick 確實取得了第二名的好成績,但這背後似乎另有隱情:

-
1. 版本差異: Meta 提交給 LM Arena 進行測試評估的 Maverick 版本,和公開發布給開發者使用的版本,可能不是同一個 -
2. 官方標註: Meta 在發佈公告和 Llama 官網上其實也提到了這一點。他們明確説明,用於 LM Arena 測試的是一個 “實驗性的聊天版本”,或者標註為 “專門針對對話場景優化的 Llama 4 Maverick” -
3. “為榜單優化” 的問題: TechCrunch 指出,雖然 LM Arena 本身並非完美的評測工具,但過去 AI 公司通常不會(至少不公開承認)專門為了提升榜單排名而特供一個優化版本。Meta 這次的做法,相當於針對基準測試優化了一個版本去打榜,卻給開發者提供了未經特別優化的 “基礎版” -
4. 誤導開發者: 這種操作會讓開發者難以根據榜單排名準確預估模型在自己實際應用場景中的真實表現。基準測試雖然有侷限,但本應提供一個相對公平的參考 -
5. 行為差異: X 平台上的研究人員也發現,公開下載的 Maverick 版本,和在 LM Arena 上測試的版本行為確實不同。榜單上的那個版本更喜歡用表情符號(emoji),回答也明顯更囉嗦
一些 Llama 4 的實測
號稱千萬上下文的召回率,上下文的實際表現,遠低於預期

Llama 4 Maverick 在 aider 多語言編碼基準測試中得分為實測僅為 16%

本文來源:AI 寒武紀,原文標題:《大瓜來了!Llama 4 陷刷榜爭議:“內部員工” 發帖控訴,測評版本被指特供?》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
