測試時計算之後,谷歌三大團隊集眾人之力,發現了全新的 Scaling Law! 剛剛,谷歌研究員 Zachary Charles 宣佈:「在越來越大的模型上,分佈式訓練取得重大突破」。 這個核心算法,便是——DiLoCo 的 Scaling Law。 新的訓練方法無懼模型規模,未來,在「多個數據中心」訓練大模型的規模不再是問題。 論文得出四大發現,DiLoCo 訓練方法的 Scaling law,效果遠超「數據並行」: 更穩健(Harder):在不同模型規模下,DiLoCo 的超參數依然保持穩定且可預測。 更優越(Better):隨着模型規模擴大,DiLoCo 相較於數據並行訓練的優勢進一步提升。 更高效(Faster):DiLoCo 所需的帶寬比數據並行訓練少幾個數量級。 更強大(Stronger):DiLoCo 能夠容忍比數據並行訓練大得多的批大小。 值得一提的是,這篇鉅作集結了谷歌三大團隊:谷歌 Research、谷歌 Search、谷歌 DeepMind。 在固定計算預算下,研究人員探討了 DiLoCo 在訓練大模型時的 Scaling law。 論文中,重點分析了算法因素(如模型副本數量、超參數設置、token 預算)如何影響訓練過程,並證明這些影響可通過 Scaling law 準確預測。 結果表明,DiLoCo 在模型規模增長時,表現出穩定且可預測的擴展性。論文合著者 Arthur Douillard 再次強調:DiLoCo 生效了! 智能的未來將是分佈式的,而 DiLoCo 可能正是那個關鍵的要素 在合理調優的情況下,DiLoCo 比數據並行訓練更具擴展優勢,即使在小規模模型上也可能優於數據並行訓練。 這些發現,揭示了 DiLoCo 的強大優勢:不僅解決了通信瓶頸,還為大規模模型訓練開闢了全新的可能。 有網友驚歎地表示,「DiLoCo 可能會重新定義 LLM Scaling 的方式!更少的帶寬需求,更高的效率」。 「數據並行」訓練終結? 數據並行訓練在大模型上表現出色,前提是在計算資源集中分散的情況下,才能實現。 如果計算分佈較廣,通信就可能成為巨大的瓶頸,尤其是當模型規模增長時,問題會更加嚴重! 機器學習採用的解決方案,例如在聯邦學習和數據中心訓練中,就是讓多個獨立模型進行訓練,並定期同步。 隨着機器學習模型規模的擴大,數據並行方法固有的頻繁同步需求會導致顯著的性能下降,這對進一步擴展模型構成了關鍵挑戰。 那麼,如何在保持模型質量的同時,降低同步需求,以突破這一瓶頸呢? 答案或許就在,DiLoCo(Distributed Low-Communication)這一創新方法中。 每個 DiLoCo 模型副本都會獨立訓練 H 個內部優化(inner optimization)步驟。 這些模型通過外部優化(outer optimization)步驟進行同步,通常在外部優化步驟之間引入動量機制。 在下圖中,示例中共有 M=4 個模型副本。 DiLoCo 的成功已經被反覆驗證。它的運作方式與聯邦學習的 FedOpt 方法類似。 此外,研究人員也多次證明 DiLoCo 在大模型(LLM)訓練中的卓越表現。 那麼 DiLoCo 有什麼問題?簡單來説——規模。 DiLoCo 與數據並行訓練不同,它引入了額外的「外部」超參數,並且實際上的表現和理論上明顯不同。 這正是研究 scaling laws 的目的! 這次研究從零開始構建了 DiLoCo 和數據並行訓練的 Scaling law,用於預測它們在大規模模型上的表現對比。 在數據並行訓練中,每個訓練步長都會處理一個大小為 B 的數據批。 在本研究中,批大小指的是批中的 token 數量(而不是序列數量)。 計算批梯度,並使用學習率γ進行優化。 在 DiLoCo 訓練過程中,每個時間步 t 處理一個全局批大小為 B 的數據,並在序列級別將其均勻分配到 M 個 DiLoCo 副本中。 因此,全局批大小仍然是 B,而每個 DiLoCo 副本的本地批大小為 B/M。與數據並行訓練類似,每個副本都會計算批梯度,並使用學習率γ執行一次內部優化(inner optimization)。 但與數據並行不同的是,DiLoCo 每 H 步會執行一次「外部優化」(outer optimization),基於參數空間計算的外部梯度(outer-gradients),並使用學習率η進行更新。 一個重要的對比是數據並行 vs.DiLoCo(M=1)。 雖然它們相似,但並不完全相同。 DiLoCo 在 M=1 的情況下,仍然包含一個外部優化器(OuterOpt)步驟,因此它可以被視為 Lookahead 優化器的變體。 而在 DiLoCo 中,OuterOpt 通常使用帶有 Nesterov 動量的 GD,這意味着 DiLoCo(M=1)實際上是數據並行訓練的一個變體,但動量操作僅每 H 步執行一次。 還進行了大量實驗,涵蓋訓練過程的各個方面,全面分析了它們的擴展行為。 實驗方法 大部分實驗裏,研究團隊使用 C4 數據集的訓練集來訓練模型,評估指標用 C4 的驗證集。 另外,還在三個下游任務上算了零樣本評估指標:HellaSwag、Piqa 和 Arc-Easy。 模型架構:Chinchilla 變體 研究團隊用的是一個類似「Chinchilla」的純解碼器 Transformer 架構,加入了 QK-LayerNorm,還使用了 z-loss 正則化來讓訓練更穩定。 他們把多個序列打包到每個批裏,最大序列長度全程固定為 2,048。 所有模型都是從零開始訓練的,因為這次主要想研究預訓練階段的規模規律。 研究團隊訓練了一堆模型,調整了 Transformer 層數、注意力頭的數量、QKV 維度和前饋層的隱藏維度。 除非特別説明,他們都用 Chinchilla 的 token 預算,並且對除了最大的兩個模型(4B 和 10B 參數)外,其他模型都做了大量的超參數調整。 算法和優化器 研究團隊用 AdamW 作為數據並行(Data-Parallel)的優化器,也是 DiLoCo 的內層優化器。兩個算法的β1 設為 0.9,β2 設為 0.99。 訓練開始有 1000 步的預熱,然後用餘弦學習率衰減。權重衰減參數λ設為 T⁻¹,其中 T 是總訓練步數(取決於批大小和 token 預算)。到訓練結束時,學習率衰減到峯值的 5%。 為了訓練穩定,他們把(內層)梯度的全局ℓ2 範數剪裁到 1,外層梯度不剪裁。 對於 DiLoCo,他們用帶 Nesterov 動量的 SGD 作為外層優化器。動量設為 0.9,外層學習率保持不變。 從 0 構建,全新 Scaling Law 已來 發現 1:規模 DiLoCo 的評估損失隨着 N 的增加,相對於數據並行(Data-Parallel)有所改善。 Scaling law 預測,當 M=2 時,DiLoCo 在參數達到幾十億以上時,損失會比數據並行更低。這一現象在研究調優的最大模型以及 4B 和 10B 模型的訓練中都得到了驗證。 下圖 2 展示了 DiLoCo 和 Data-Parallel 兩種算法在不同模型規模(N)下的表現對比。 圖 (a) 顯示,隨着模型規模從 2^25 到 2^31 逐漸增大,DiLoCo(分別在 M=1、2、4、8 時)和 Data-Parallel 的評估損失(EvalLoss)都在下降,但 DiLoCo 的損失下降得更明顯,尤其是在 M 值較大時。 圖 (b) 進一步展示了 DiLoCo 相對於 Data-Parallel 的評估損失的百分比差異,可以看出,隨着模型規模增加,DiLoCo 的損失比 Data-Parallel 低得越來越多,説明 DiLoCo 在模型規模擴大時表現更優越。 這個發現有兩個獨立但相關的部分: DiLoCo(M=1) 表現更好:就像上面提到的,DiLoCo 在 M=1 時,所有模型規模的評估損失都比 Data-Parallel 低。而且隨着模型參數規模 N 增加,Data-Parallel 和 DiLoCo(M=1) 之間的差距越來越大。 DiLoCo(M≥2) 的表現:在大多數模型規模下,DiLoCo 在 M≥2 時評估損失會更高。不過,如果看 DiLoCo 和 Data-Parallel 之間的百分比差異(帶正負號),會發現隨着 N 增大,DiLoCo 相對 Data-Parallel 的表現越來越好,甚至在 M=2、N=2.4 億參數時超過了 Data-Parallel。 比如,研究團隊在下表 4 中列出了 Data-Parallel 和 DiLoCo 在不同模型規模 N 下的評估損失。 可以看出,不管 M 是多少,百分比差異都隨着 N 增加嚴格減小。 這個趨勢在圖 2 中也有展示:隨着 N 增加,DiLoCo 的相對評估損失逐漸降低。 研究團隊還通過用縮放法則調好的超參數,訓練了 40 億和 100 億參數的模型來驗證這一點。 雖然圖 2 顯示的是「插值」範圍的結果(基於大量實驗掃描),但這些發現也可以推廣到外推狀態,能在 M=1 或 2 時用 DiLoCo 訓練出評估損失更低的 40 億和 100 億參數模型。 下表 5 展示了用外推超參數訓練的結果,展示了在較大規模的 4B 和 10B 模型上,DiLoCo 和 Data-Parallel 算法的評估損失對比,表明 DiLoCo 在更大規模下整體表現出色。 發現 2:單副本 DiLoCo 當副本數 M=1 時,DiLoCo 在不同模型規模下獲得的評估損失都比 Data-Parallel 低。 下圖 3 展示了當副本數 M=1 時,DiLoCo 與 Data-Parallel 在不同模型規模(35M、550M、1.3B、2.4B)和全局批大小(以 token 計,從 2^16 到 2^20)下的評估損失和 HellaSwag 零樣本準確率對比。 圖 (a) 顯示 DiLoCo 的評估損失始終低於 Data-Parallel,且差距隨着批大小增加而擴大;圖 (b) 表明 DiLoCo 在 HellaSwag 零樣本準確率上也優於 Data-Parallel,趨勢相似。 在幾乎所有情況下,在 M=1 時,DiLoCo 不僅評估損失更低,下游任務的零樣本準確率也比 Data-Parallel 高。 而且,DiLoCo(M=1) 的表現對批大小(batch size)的穩定性更強:把批大小翻倍或翻四倍,對 Data-Parallel 的性能影響很大,但對 DiLoCo(M=1) 幾乎沒啥影響,圖 3 裏畫得很清楚。 發現 3:批大小對性能的影響 DiLoCo 提高了最佳批大小,而且最佳全局批大小隨着副本數 M 的增加而變大。這意味着 DiLoCo 相比 Data-Parallel 改善了橫向擴展能力。 雖然 DiLoCo 在批大小 M>1 時,挑選所有超參數中最好的實驗結果,評估損失往往略遜一籌,但它在批大小方面的表現顯著提升。 Data-Parallel 和 DiLoCo(M=1) 在小批時表現都不錯,但隨着批大小增加,Data-Parallel 的性能下降很快。 相比之下,不管批大小 M 是多少,DiLoCo 的表現對批大小都穩定得多。 下圖 4 展示了評估損失的例子,結果表明,對於所有 M 值,DiLoCo 的最佳批大小都比 Data-Parallel 更大,且隨着 M 的增加,DiLoCo 的最佳批大小進一步增大。 例如,在 550M 模型中,Data-Parallel 的評估損失在批大小較小時最低,而 DiLoCo 在批大小更大時表現更優,類似趨勢在 1.3B 和 2.4B 模型中也成立。 下圖 5 展示了在 HellaSwag 數據集上的零樣本準確率。結果顯示即使在較小的模型規模下,DiLoCo 在 M=2 時也能在更大的全局批大小下實現更高的準確率。 例如在 550M 模型中,DiLoCo 的準確率曲線在批大小增加時優於 Data-Parallel;1.3B 和 2.4B 模型也表現出類似趨勢。 發現 4:外部學習率 最佳外部學習率基本上與模型規模 N 無關,但會隨着副本數 M 的變化而變化。 一個重要結果是,DiLoCo 在水平擴展上更自然。在所有情況下,token 預算 D,只跟模型規模 N 有關。這意味着如果用 4 倍大的批大小,訓練步數會減少到 1/4。 對 DiLoCo 來説,這依然能保持不錯的性能,還能一次性用更多資源,縮短總訓練時間。而 Data-Parallel 似乎更依賴串行訓練。這種訓練時間的減少還因為通信量降低而加倍明顯。 下圖 6 展示了理想的訓練時間(wall-clock time),模擬不同網絡帶寬下的情況。 可以看到,DiLoCo 對較大批大小的容忍度使其能夠顯著更快地實現與 Data-Parallel 相當的性能損失,而且在低帶寬設置中這種效果更為明顯。 發現 5:外部學習率 如下圖 7 所示,對於足夠大的模型(N≥3.35 億參數),每個 M 的最佳η是固定的。M 越大,η似乎也越大。這跟之前聯邦學習的研究一致:外層學習率應該隨着客户端數量增加而增加。 實際上,外部學習率僅取決於 DiLoCo 模型的數量以及同步的頻率。 也就是説,雖然最優的內層學習率會隨模型規模 N 變化,但 DiLoCo 的最優外層學習率η不依賴 N,只跟 M 有關。 DiLoCo 同樣有助於解決過度訓練的問題! 過度訓練可能會相當昂貴,但是增加了批大小並減少了通信量意味着,通常可以在相同的時間內用 DiLoCo 進行 4 倍的過度訓練(OT),而使用數據並行訓練只能進行 1 倍的過度訓練。 論文中還有更多內容。其中包括 Scaling law 本身,以及甚至提供了預測最優超參數的方法。 Scaling law 表明,對於參數超過 20 億的模型,使用 2 個模型的 DiLoCo 優於數據並行方法 Chinchilla 將死?AI 3 萬億美元的岔路 DiLoCo 使得調整超參數和訓練模型變得更加簡單。但問題在於,AI 模型本身「換湯不換藥」——還是 Chinchilla 那一套。 畢竟,過去的預訓練 Scaling Law 已進入尾聲,而新的 AI Scaling Law 與訓練無關。 如今,隨着新型「推理模型」的興起,一個問題浮出水面:如果 Chinchilla 死了,AI 未來會怎樣? 大約 5 年前,OpenAI 研究員發現,將更多的算力、數據投入到大規模訓練中,可以顯著提升 AI 模型的性能。 幾年後,谷歌研究人員更進一步,通過構建名為「Chinchilla」的模型證明,增加數據量能帶來更好的效果。這種「計算 + 數據」的組合催生了如今的巨型模型,比如 GPT-4。 然而,這種策略的成功依賴於巨大的前期投入。 海量數據被塞進複雜且耗能的預訓練過程,科技大廠瘋狂建造數據中心,塞滿了英偉達 GPU。 但問題來了:這種砸錢砸數據的模式,還能走多遠? 巴克萊資本的頂級分析師 Ross Sandler 指出,未來可能面臨兩種截然不同的情景: 一是,「Chinchilla」繼續主導,鉅額算力和數據投入持續攀升; 二是,「停滯」替代方案,新型技術和模型以更少的資源實現更強性能。 這兩種路徑的資本支出差距高達 3 萬億美元以上,足以影響整個行業的走向。 「推理模型」崛起 推動這一潛在變革的,是「推理模型」的興起。 OpenAI 的 o1、o3、DeepSeek R1、谷歌 Gemini 2.0 Flash Thinking 等新模型,採用了一種名為「測試時計算」(test-time compute)的技術。 這種方法將複雜查詢分解為小任務,逐一處理,不再依賴長時間的預訓練。 相較於傳統模型,推理模型可能響應稍慢,但它們輸出更準確,運行成本也更低。 更重要的是,它們擺脱了對大規模預訓練的依賴。 DeepSeek R1 甚至展示了一種可能:開源推理模型能在短時間內實現性能飛躍。 這意味着,AI 公司可能不再需要花費 18-24 個月和巨資去打造下一個「巨無霸」模型。 此外,混合專家模型(MoE)也成為被廣泛採用的技術,通過訓練多個小型「專家」模型,讓它們與大模型協同工作,只在需要時調用部分算力。 這種方式,一步降低了基礎設施需求。 Chinchilla 何去何從? 過去五年,Chinchilla 策略推動了 AI 供應鏈的繁榮,許多公司股價因此飆升。 但如今,它的可持續性正受到質疑。 巴克萊分析師指出,「隨着投入成本激增,比如一次預訓練耗資 100 億美元,性能增益卻可能越來越小,這種模式的性價比正在下降」。 更嚴峻的是,訓練數據可能正在枯竭。 高質量數據的供應有限,而 AI 對數據的「胃口」卻越來越大。如果沒有足夠的「食物」,Chinchilla 還能活多久? 甚至,業內一些大佬預測,像 OpenAI 這樣的公司,可能會在 GPT-5 之後停止無休止的規模 Scaling。 面對數據枯竭,AI 行業將希望寄託於「合成數據」。研究者認為,這種「自給自足」的反饋循環能讓模型不斷自我進化,推動技術邁向新高度。 Chinchilla 們本質上可以通過「自我餵養」來生存。 「如果 AI 行業在合成數據和遞歸自我改進方面取得突破,那麼我們將重新走上 Chinchilla scaling 路徑,計算需求將繼續迅速上升」。 Chinchilla 死了嗎?這個問題,AI 市場會給出最終答案。 如果推理模型、MoE 技術成熟,AI 可能走向輕量化,高效率的未來,數萬億美金的基礎設施投資,或許不再必要。 但,如果「合成數據」讓 Chinchilla 重煥生機,算力競賽將捲土重來。 無論哪種未來到來,AI 的演進都在重塑整個世界。 來源:新智元,原文標題:《谷歌重磅推出全新 Scaling Law,搶救 Transformer!3 萬億美元 AI 面臨岔路》 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。