
Xiaomi surged about 3% during the session, announcing the open-source of its first inference large model "Xiaomi MiMo"

I'm PortAI, I can summarize articles.
小米集團盤中衝高,現漲約 3%。消息面上,小米今日宣佈開源其首個為推理而生的大模型「Xiaomi MiMo」,聯動預訓練到後訓練,全面提升推理能力。
今天,小米開源首個為推理(Reasoning)而生的大模型「Xiaomi MiMo」,聯動預訓練到後訓練,全面提升推理能力。
在數學推理(AIME 24-25)和 代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。
MiMo 推理能力的提升,由預訓練和後訓練階段中數據和算法等多層面的創新聯合驅動,包括:
預訓練:核心是讓模型見過更多推理模式
- 數據:着重挖掘富推理語料,併合成約 200B tokens 推理數據。
- 訓練:進行了三階段訓練,逐步提升訓練難度,總訓練 25T tokens。
後訓練:核心是高效穩定的強化學習算法和框架
- 算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題,並引入 Easy Data Re-Sampling 策略,以穩定 RL 訓練。
- 框架:設計了 Seamless Rollout 系統,使得 RL 訓練加速 2.29 倍,驗證加速 1.96 倍。
MiMo-7B 已開源 4 個模型至 HuggingFace:https://huggingface.co/XiaomiMiMo
技術細節見技術報告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
來源: OSCHINA
