
Kimi hard against the full-blooded version o1 of multimodal, first exposure of training details! Reinforcement learning scaling new paradigm born

Kimi 發佈了 k1.5 多模態思考模型,標誌着中文編程語言的崛起。該模型在 Long CoT 模式下的數學、代碼和多模態推理能力已達到 OpenAI o1 滿血版的水平,並在 Short CoT 模式下顯著領先於 GPT-4o 和 Claude 3.5。Kimi 團隊創新性地擴展了強化學習的應用,開闢了新的路徑,通過獎勵機制實現自主擴展訓練數據,推動計算規模的有效擴展。
還記得嗎,AI 大神 Karpathy 曾説過,「英文是最熱門的編程語言」。
兩年後的現在,這個規則徹底要被顛覆了。
從今天起,中文很有可能成為全球最熱門的編程語言!

就在剛剛,Kimi 發佈了 k1.5 多模態思考模型。這是繼去年 11 月他們發佈 k0-math 數學模型,12 月發佈 k1 視覺思考模型之後,連續第三個月帶來 k 系列強化學習模型的重磅升級。
Kimi k1.5 的性能,如今已經全面追上現役全球最強模型——OpenAI o1 滿血版。

具體來説,在 Long CoT 模式下,Kimi k1.5 的數學、代碼、多模態推理能力,達到了長思考 SOTA 模型 OpenAI o1 滿血版的水平。這也是全球範圍內,首次有 OpenAI 之外的公司達到。
而在 Short CoT 模式下,Kimi k1.5 大幅領先 GPT-4o 和 Claude 3.5 的水平。

短 COT 模式下,數學成績顯著高於 GPT-4o 和 Claude Sonnet 3.5
同時,月之暗面也大方公開了這個滿血版 o1 水平的強化學習模型的訓練技術細節。
簡單出奇跡,首創 long2short 思維鏈
扒開 Kimi k1.5 25 頁技術報告,可以清晰看到這款模型的技術創新之處。
當前,基於下一個 token 預測的語言模型,在計算規模上的擴展,已經得到了有效證明。
但模型 Scaling 仍受限於可用的數據量,為此,Kimi 團隊創新性地擴展了強化學習(RL)的應用,開闢出一條全新的路徑。
它能夠讓 LLM 通過獎勵機制進行探索性學習,從而自主擴展訓練數據,從而實現計算規模有效擴展。

論文地址:https://github.com/MoonshotAI/kimi-k1.5
以下,是 k1.5 設計和訓練的四大關鍵要素:
1. 長上下文擴展
2. 改進的策略優化
3. 簡化框架
4. 多模態
接下來,我們一起深挖一下這些技術細節吧。
短 CoT 模型的上下文壓縮
與業界普遍採用複雜技術做法不同,Kimi 團隊選擇了一條更為優雅的技術路線——迴歸第一性原理。
他們證明了,無需依賴蒙特卡洛樹搜索、價值函數、過程獎勵模型,也能讓模型取得卓越的性能。
如上所見,我們已經看到了 Kimi k1.5 在多個權威基準測試中,取得了顯著的突破。
那麼,long2short 是如何被實現的呢?
Kimi 團隊認為,可以將長 CoT 模型的推理先驗轉移到短 CoT 模型中,從而即使在有限的測試 Token 預算下也能提高性能。
模型合併
將長 CoT 模型和短 CoT 模型進行合併,除了可以在泛化性上起到積極的作用,還可以提高 Token 的使用效率。
這種方法通過簡單地平均兩個模型的權重,將一個長 CoT 模型與一個短模型結合,得到一個新的模型,而無需進行訓練。
最短篩選採樣
由於模型對於同一問題生成的響應長度變化很大,因此團隊設計了一種最短篩選採樣方法。
也就是,先對同一問題採樣 n 次,然後選擇最短的正確響應進行監督微調。
DPO
利用長 CoT 模型生成多個響應樣本,然後選擇最短的正確解作為正樣本,並將較長的響應視為負樣本,包括正確但長度是選定正樣本 1.5 倍的較長響應。
這些正負樣本對數據集形成了用於 DPO 訓練的成對偏好數據。
long2short 強化學習
在標準強化學習訓練階段之後,團隊選擇了一個在性能與 Token 使用效率之間提供最佳平衡的模型作為基礎模型,並進行單獨的 long2short 強化學習訓練階段。
在第二階段中,他們應用了「長度懲罰」,並顯著減少了最大展開長度,以進一步懲罰可能正確但超出期望長度的響應。
強化學習基礎設施
Kimi k1.5 系統設計了一種迭代同步的 RL 框架,旨在通過持續的學習與適應來增強模型的推理能力。
該系統的一項關鍵創新是引入了部分回滾(Partial Rollout)技術,用於減少計算開銷並優化複雜推理軌跡的處理。
如下圖 3a 所示,RL 訓練系統通過迭代同步的方法運行,每次迭代包含回滾階段和訓練階段。
在回滾階段,由中央主控協調的回滾工作節點通過與模型交互生成回滾軌跡,這些軌跡是模型對各種輸入生成的響應序列。在隨後的訓練階段,訓練工作節點訪問這些經驗以更新模型的權重。
這個循環過程使模型能夠持續從其行為中學習,隨着時間的推移調整其策略以提升性能。

長 CoT 強化學習的部分回滾技術
部分回滾(Partial Rollouts)能夠通過同時管理長軌跡和短軌跡的回滾,有效地解決處理長 CoT 特性時的資源分配和效率挑戰,進而實現長上下文強化學習(RL)訓練的規模擴展。
該技術設定了一個固定的輸出 Token 預算,對每個回滾軌跡的長度進行限制。如果某個軌跡在回滾階段超過了 Token 限制,其未完成部分被保存到重放緩衝區,並在後續迭代中繼續處理。
此外,由於回滾工作節點是異步運行的,當某些節點處理長軌跡時,其他節點可以獨立地處理新的短回滾任務。
如圖 3b 所示,部分回滾系統通過在多次迭代中將長響應分解為多個片段來運行,顯著降低了計算開銷——系統無需一次性處理整個響應,而是逐步處理和存儲片段,從而在保持快速迭代時間的同時生成更長的響應。
部分回滾的實現還提供了重複檢測功能。系統能夠識別生成內容中的重複序列並提前終止,從而減少不必要的計算,同時保持輸出質量。

訓練與推理的混合部署
研究者提出了一種用於訓練和推理任務的混合部署策略,該策略利用 Kubernetes 的 Sidecar 容器共享所有可用 GPU,將兩種任務協同部署在同一個 Pod 中。這一策略的主要優勢包括:
-
促進了資源的高效共享與管理,避免了訓練節點因等待推理節點而處於空閒狀態(當兩者部署在不同節點時)
-
通過使用不同的部署鏡像,訓練和推理可以獨立迭代,從而實現更好的性能
-
架構並不限於 vLLM,還可以方便地集成其他框架
如圖 4 所示,研究者在 Megatron 和 vLLM 的基礎上實現了這一混合部署框架,從訓練到推理階段不到一分鐘的轉換時間,反向轉換則約為十秒鐘。

實驗結果
由於 k1.5 是一個多模態模型,研究者對不同模態的各種基準進行了綜合評估。基準測試主要包括以下三類:
-
Text Benchmark:MMLU, IF-Eval, CLUEWSC, C-EVAL
-
Reasoning Benchmark:HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
-
Vision Benchmark:MMMU, MATH-Vision, MathVista
k1.5 長 CoT 模型
Kimi 的 k1.5 長 CoT 模型通過長 CoT 監督微調和視覺 - 文本聯合強化學習,在長距離推理上獲得了顯著的增強。
評估顯示,模型在長上下文中的推理、理解和信息綜合能力方面有了顯著提升,標誌着多模態 AI 能力的顯著進步。

k1.5 短 CoT 模型
Kimi 的 k1.5 短 CoT 模型集成了多種技術,包括傳統監督微調方法、強化學習以及長到短知識蒸餾。
如表 3 所示,k1.5 短 CoT 模型在覆蓋多個領域的多項任務中表現出與領先的開源和專有模型相當或更優的性能。

長上下文 Scaling
研究者使用一箇中型模型,來研究結合 LLM 的強化學習的擴展特性。如圖 5 所示,隨着訓練的進行,模型響應長度和性能準確率同時增加。
尤其值得注意的是,在更具挑戰性的基準測試中,響應長度的增長更為陡峭,這表明模型在處理複雜問題時學會生成更詳盡的解決方案。

圖 6 表明,模型輸出的上下文長度與其問題解決能力之間存在顯著的相關性。
最終,k1.5 模型的運行能支持 128k 上下文長度,並在困難的推理基準測試中持續取得改進。

由長到短
研究者重點研究了 long2short 問題中的 Token 效率,特別是長 CoT 模型如何提升短模型性能。
如圖 7 所示,提出的 long2short 強化學習算法在 Token 效率方面優於其他方法(如 DPO 和模型合併)。
值得注意的是,k1.5 系列的所有模型(用橙色標記)在 Token 效率上都優於其他模型(用藍色標記)。

思考模型,進入衝刺
可以看到,在多模態推理技術路線上,Kimi 又進了一步。
從 2024 年 11 月,他們首次推出的數學推理模型 K0-math 就展現出了在數學領域的領先性。
緊接着一個月後,K1 視覺思考模型誕生,不僅繼承了 K0-math 的數學底藴,更突破性地解鎖了視覺理解能力。
這意味着,K1 不僅「會算」,還能「會看」——通過理解圖片中的信息,並通過逐步推理得出答案。
如今,k1.5 又繼續向前推進了一步,在多個領域數理化、代碼、通用中,刷新了 SOTA,甚至能夠媲美世界頂尖模型。

下一步,Kimi 依舊會發力多模態推理,繼續迭代出能夠在更多模態、更多領域、具備更強通用能力的 Kn 系列的模型。
k1.5 已經帶來了諸多驚喜,還真是有點期待下一代模型的到來。
文章來源:新智元,原文標題:《Kimi 硬剛多模態滿血版 o1,首曝訓練細節!強化學習 scaling 新範式誕生》
