Grok 3 conducted an experiment for the AI community using 200,000 GPUs: Scaling Law did not hit a wall, but pre-training is not guaranteed

華爾街見聞
2025.02.20 00:21
portai
I'm PortAI, I can summarize articles.

Grok 3 使用 10 萬張英偉達 H100 卡進行實驗,顯示預訓練階段的 Scaling Law 仍然成立,儘管存在數據不足的問題。Scaling Law 並未到達天花板,增加模型尺寸仍能提升效果,但性價比低。當前有效的 Scaling 方法按性價比排序為:Test time Scaling Law、RL Scaling Law、預訓練階段 Scaling Law。

媒體風向變化太快,讓人目不暇接。早上還在誇 DeepSeek 成本低,性價比高,預訓練 Scaling Law 死了,不需要太多機器和 GPU 卡,性價比優先,英偉達休矣;中午 Grok 3 一出來,説是用了 10 萬張英偉達 H100 卡,效果力壓 OpenAI o3 mini 和 DeepSeek R1,就轉向説 Scaling Law 還成立,還需要大量的卡,英偉達股價有救了,還是要大力出奇跡……

這兩個觀點明顯對立,有一真必有一假,那事實的真相到底是啥呢?我們來推一推。

預訓練階段的 Scaling Law 是否仍然成立

預訓練階段的 Scaling Law 成立嗎?當然是成立的,所謂 “Scaling Law 撞牆”,大家普遍遇到的問題是數據不夠了,沒有大量新數據,導致預訓練階段的 Scaling Law 走勢趨緩,注意是趨緩但不是停頓,預訓練階段的 Scaling Law 並沒到天花板。

按照 Chinchilla Scaling Law 推斷,即使沒有新數據,也並不意味着模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來説很不合算,性價比過低,這是為何大家轉到 RL Scaling Law 和 Test Time Scaling Law 的原因,是因為付出同樣的算力,在後面兩個階段大模型智商提升更明顯,就是性價比高。

目前可以提高模型效果的 Scaling 方法,按照性價比由高到低排序的話:Test time Scaling Law> RL Scaling Law>預訓練階段 Scaling Law(數據不夠了,只能推大模型尺寸),有性價比高的 Scaling,當然優先做這種,性價比低的 Scaling,只有在沒有性價比更高的情況下才會採用。這跟購物一個道理,有性價比高的當然不會去買性價比低的商品。

如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板,又沒有找到新的性價比更合算的 Scaling Law,也不是説模型效果就提不上去了,大家仍然可以迴歸預訓練階段的 Scaling Law,沒有新數據也沒關係,推大模型尺寸規模就可以,效果仍然會上升。但這基本是最後的選擇,沒辦法的辦法,只要有性價比高的方法就不會走這條路。

有人問了:那按照你的意思,囤那麼多 GPU 算力,其實對訓最好的模型也沒啥用?要是按照上面的理論,那確實是沒有太大必要,比如 DeepSeek 2000 卡也可以作出最好的模型不是。

但是卡多有個好處,就是能壓縮實驗新想法和訓練大模型基座的時間週期。比如你總得探索一些不同的算法、參數或數據配比的模型進行各種實驗,你有 10 個新想法,如果只有 2000 張卡,可能得跑 5 天才能得出結論,要是有幾萬張卡,可能 1 天就能得出結論,所以卡多對於探索效率是有極大幫助的。卡多創新多,這點肯定成立。

Grok 3 基座模型(對標 DeepSeek V3,非 R1 這種邏輯推理模型)

為何 Grok 3 作為通用基座模型,它的評測指標只有數學、科學和代碼數據集?沒有通用能力比如最常用的 MMLU 指標的對比,這是不太規範的對比模式。推斷可能 Grok 3 的通用能力相對 OpenAI 和 DeepSeek 的模型沒有大幅提升,所以不拿出來比?

如果想要提升基座模型的數學、科學和代碼能力,無論從方法還是從成本角度來講,難度並不大,目前比較標準的做法是類似 DeepSeek V3 從 DeepSeek R1 蒸餾數學、代碼等邏輯題的長 COT 數據,即深度思考過程數據。

就是説把深度思考長 COT 數據引入基座的 Post-Training 階段、甚至前置到預訓練階段(所謂大模型 “左腳(DeepSeek 基座)踩右腳(DeepSeek R1)自我飛昇” 的模式),這樣就能大幅提升基座模型在數學和代碼方面相關的能力,也就是 Grok 3 宣傳具備的 “有思維鏈推理和自我糾錯機制”,評測指標看着會比較好看,而且蒸餾的數據總量也不會太大(幾百 B 級別應該夠了),成本很低,對算力要求不高。

OpenAI 很快會發布的非邏輯推理模型 GPT 4.5 ,大概也應是類似的思路,從 o3 模型蒸餾 COT 數據,用深度思考數據來提升 GPT 4.5 基座模型的智商,大模型 “左腳踩右腳自我飛昇” 大法,這會是之後基座模型提升能力的主要手段。

Grok 3 的算力消耗是 Grok 2 的 10 倍,如果遵照 Chinchilla Scaling Law,最佳做法是 Grok 3 的訓練數據量比 Grok 2 增加 3 倍,模型大小同時比 Grok 2 增加 3 倍(但是目前的趨勢是減小模型大小,增大數據量 [就是説 “小模型大數據” 的模式],儘管這樣不滿足訓練最優原則,但因為模型尺寸小了,所以這種模型更適合在線推理服務,降低服務成本)。

如果像發佈會宣稱的,Grok 3 耗費算力是 Grok 2 的 10 倍消息為真的話,那有兩種可能。

一種是數據量增長極大,這樣只能是增加了大量多模態數據,比如數據量從 10T 增長到 30T(目前文本模型使用的數據量,最多到 18T 到 20T 之間,基本到頂,再多沒有了,要大幅增加只能加多模態數據,但是增加多模態數據對提升大模型智商幫助不大,所以這個增量按理説不應該太大),如果這樣推算,Grok3 的模型規模增長 3 倍左右。

第二種可能是訓練數據量比 20T 增加的不多,如果這樣可以推出 Grok 3 模型尺寸比 Grok 2 要大很多,至少 4 到 5 倍起步(若新增數據不多,那隻能靠增加模型尺寸來消耗新增算力)。不論是哪種可能,Grok 3 的模型大小肯定比 Grok 2 大了很多,而 Grok 2 模型本身可能就不小(Grok 2 發佈網頁評測效果超 Llama 3.1 405 B,所以無論數據還是模型大小,都不會太小,要是 Dense 模型, 70B 是最小的估計了),所以 Grok 3 的尺寸規模很可能不是一般的大(感覺在 200B 到 500B 之間)。

很明顯,Grok 3 仍然在採取推大基座模型尺寸的 “傳統” 做法,也就是上面 “Scaling Law” 部分分析的預訓練階段增大模型尺寸的方法來提升基座模型能力,上面分析過,這種做法是性價比很低的。比較時髦的做法是把訓練重心放在 RL Scaling 方面,性價比會高太多。但是為啥他要做這種賠本買賣呢?在後面會給出一個可能的解釋。

Grok 3 邏輯推理版本(深度思考版本,對標 DeepSeek R1)

Grok 3 的深度思考版本,不説體驗,單從評測指標看,達到或者超過了 o3 mini,確實是目前效果最好的,或者説最好的之一沒有什麼問題。

説回上面提到的問題,為啥明知靠推大預訓練階段模型尺寸規模性價比低,Grok 3 還要用這種模式呢?很可能內在的原因在於(推斷無證據):Post-Training 階段採取 RL Scaling,其效果可能跟基座模型的大小是有正相關關係的。

就是説,同樣的 RL 階段的算力消耗,如果基座模型尺寸更大,則 RL 階段的 Scaling 效果越好。只有這樣,才有在預訓練階段儘量把模型規模推大的必要性。而我們可以假設,Grok 3 之所以採取這種過於耗費算力,看着性價比不高的方式,是希望通過加大基座,把深度思考版本的能力明顯提起來。

貌似 DeepSeek R1 效果很好又開源,獲得一片好評,但大家想要實際用起來,會發現基座太大,部署難度和消耗資源太高,對下游應用不太友好。那為啥 DeepSeek 非得推這種對下游應用來説明顯過大的模型呢?(小點的蒸餾模型看着指標很好,但是實際應用效果貌似差不少),是否也是因為基座模型如果不夠大,深度思考模型效果就沒那麼好的原因?

如果上述假設成立,那意味着:三個 Scaling Law(Pre-train、RL 、Test Time),從提高大模型智商的性價比來説,由高到低是:Test Time > RL > Pre-Train,這個是之前的結論。但如果上述假設成立,説明 Test Time Scaling 的天花板最低,它的天花板依賴於 RL 階段的 Scaling 能力,而 RL 階段 Scaling 天花板次低,它的天花板依賴於預訓練階段 Pre-Train 的 Scaling?

如果這樣,如果有一天當 RL 和 Test Time 天花板到頂,意味着我們可以再啓動一輪,去推大基座模型的模型尺寸,RL 階段 Scaling 的天花板隨之升高,然後可以再去 Scale RL 和 Test Time,就進一步得到智商更高的大模型。如果這成立,那意味着 AGI 的解決方案已經完整了?其實不需要新的 Scaling Law 存在就夠?

上述推論,是在一個前提成立的條件下推出來的,這個前提是:Grok 3 耗費這麼大算力推大模型規模,這是個深思熟慮或小規模實驗的結果,而不是僅僅受到之前老觀念(預訓練階段算力越高效果越好)影響下的決策。如果這個前提不成立,則上述推論不成立。總之,一切責任在馬斯克。

本文作者:張俊林,文章來源:騰訊科技,原文標題:《Grok 3 用 20 萬 GPU 幫 AI 界做了個實驗:Scaling Law 沒撞牆,但預訓練不一定》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。