Xiaomi surged about 3% during the session, announcing the open-source of its first inference large model "Xiaomi MiMo"

長灣資訊

2025.04.30 02:55

小米集團盤中衝高，現漲約 3%。消息面上，小米今日宣佈開源其首個為推理而生的大模型「Xiaomi MiMo」，聯動預訓練到後訓練，全面提升推理能力。

今天，小米開源首個為推理（Reasoning）而生的大模型「Xiaomi MiMo」，聯動預訓練到後訓練，全面提升推理能力。

在數學推理（AIME 24-25）和代碼競賽（LiveCodeBench v5）公開測評集上，MiMo 僅用 7B 的參數規模，超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。

MiMo 推理能力的提升，由預訓練和後訓練階段中數據和算法等多層面的創新聯合驅動，包括：

預訓練：核心是讓模型見過更多推理模式

後訓練：核心是高效穩定的強化學習算法和框架

算法：提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題，並引入 Easy Data Re-Sampling 策略，以穩定 RL 訓練。
框架：設計了 Seamless Rollout 系統，使得 RL 訓練加速 2.29 倍，驗證加速 1.96 倍。

MiMo-7B 已開源 4 個模型至 HuggingFace：https://huggingface.co/XiaomiMiMo

技術細節見技術報告：https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

來源: OSCHINA