
The 20 billion AI unicorn strikes back, MiniMax's first inference model rivals DeepSeeK, with computing costs of only 530,000 USD

AI 創業公司 MiniMax 發佈了其首款推理模型 M1,該模型僅使用 512 塊英偉達 H800 GPU 訓練三週,租賃成本 53.74 萬美元。在多項基準測試中,M1 超越 DeepSeek 最新的 R1-0528 模型,在生成 100K token 時,僅需 DeepSeek 25% 的計算資源。
當 DeepSeek 的推理模型震撼全球 AI 圈時,一家估值 200 億人民幣的中國獨角獸正悄然磨刀霍霍,準備用僅 53 萬美元的訓練成本和顛覆性架構設計,向這個新貴發起正面挑戰。
17 日,AI 創業公司MiniMax 發佈了其首款推理模型 M1,根據基準評測,M1 性能超越國內閉源模型,接近海外最領先模型,部分任務超過 DeepSeek、阿里、字節,以及 OpenAI、谷歌和 Anthropic 等最新最強的開閉源模型。
這場較量的核心不僅在於性能,更在於效率——與 DeepSeek R1 相比,在生成 64K token 時,M1 消耗的算力不到其 50%;在 100K token 時,僅為其 25%。
MiniMax 稱,M1 的整個強化學習過程僅使用 512 塊英偉達 H800 GPU 訓練三週,租賃成本 53.74 萬美元(約合 380 萬人民幣)。這一成本控制"比最初預期少了一個數量級"。MiniMax 創始人&CEO 閆俊傑發文表示:“第一次感覺到大山不是不能翻越。”

MiniMax-M1:混合專家架構與線性注意力機制
MiniMax-M1 採用了混合專家(MoE)架構和線性注意力機制(Lightning Attention),這是對傳統 Transformer 架構計算瓶頸的直接挑戰。
“這種設計理論上能夠高效地將推理長度擴展到數十萬 token。” MiniMax 表示,這還能帶來計算成本的大幅下降,“這個特性使我們在訓練和推理的時候都有很大的算力效率優勢”。
該模型總參數達 4560 億,每 token 激活參數 459 億,支持高達 100 萬 Token 的上下文輸入——這一數字是 DeepSeek R1 的 8 倍,與谷歌 Gemini 2.5 Pro 並列業內最高。

在 17 個主流評測集的測試中,M1 在軟件工程能力測試 SWE-bench 上取得超過 55% 的成績,雖未達到海外頂尖模型水準,但超過了 DeepSeek-R1 以及阿里和字節的同類產品。在長上下文理解任務中,M1 在三項基準測試上全面超越所有開源模型,僅以微弱差距落後於 Gemini 2.5 Pro,位列全球第二。

成本革命:380 萬人民幣的強化學習實驗
MiniMax 聲稱,M1 的整個強化學習過程僅使用 512 塊英偉達 H800 GPU 訓練三週,租賃成本 53.74 萬美元(約合 380 萬人民幣)。這一成本控制"比最初預期少了一個數量級"。
公司還開發了名為 CISPO 的新型強化學習算法,在數學測試基準 AIME 的實驗中,該算法比字節近期提出的 DAPO 算法實現了兩倍加速,僅需 50% 的訓練步驟就能達到相同表現。

與 DeepSeek R1 相比,在生成 64K token 時,M1 消耗的算力不到其 50%;在 100K token 時,僅為其 25%。
區間定價策略!MiniMax 還有更多更新
目前,MiniMax-M1 已經對外開源,並在 MiniMax APP 和 Web 端免費升級。在 API 價格方面,MiniMax 採用了與字節豆包 1.6 相同的"區間定價"策略。
在 0-32k 和 32k-128k 輸入長度區間,M1 的價格相比 DeepSeek-R1(輸入 4 元/百萬 token,輸出 16 元/百萬 token)更具性價比。對於 128k-1M 的最長輸入區間,DeepSeek 模型甚至不支持此長度。
這一定價策略使 M1 成為繼豆包之後的又一"價格殺手",開發者評價其為"性價比新王"。
"AI 六小龍"的生存博弈
作為騰訊和阿里巴巴支持的"AI 六小龍"成員之一,MiniMax 仍在堅持基礎研究。MiniMax 創始人兼 CEO 閆俊傑發文表示:"第一次感覺到大山不是不能翻越。"
據搜狐科技報道,M1 僅是該公司為期 5 天發佈周的首個產品,後續還將發佈智能體應用,並在視頻、音樂等模型層面帶來更多更新。
MiniMax 認為,M1 的高效架構將在未來智能體應用中具有獨特優勢。"未來智能體需要數十到數百個回合進行推理,同時整合來自不同來源的長上下文信息,"該公司表示。目前,MiniMax 正在海外內測智能體應用,主打代碼、多模態等能力。
