
Igniting a price war in the Chinese large-scale model market! How did the "quantitative giant" become the "PDD of the AI world"?

量化方面的 AI 積累,萬卡算力優勢,以及 “混合專家” 的獨特架構。
本文作者:趙穎
本文來源:硬 AI
2 元/百萬輸出 Tokens,DeepSeek-V2 大模型推出一週後,便引爆業內 “價格大戰”。
字節將價格降至 0.6 元/百萬輸出 Tokens 0.6 元人民幣,阿里隨後將部分大模型價格驟降 97%,百度也免費開放了兩款文心一言模型......
“大模型黑馬” DeepSeek 由知名私募巨頭幻方量化創立,其推出的 DeepSeek-V2 不僅性能在眾多開源模型中最強,價格也 “卷” 到了業內最低。
DeepSeek 是如何成為 “AI 界的拼多多”?
最早探索 AI 的量化之一
DeepSeek 的背後離不開幻方量化支持,幻方量化自 2015 年成立以來,已發展成管理規模約 600 億元人民幣的大型資產管理公司,其部分利用 AI 和算法來識別可能影響股價的模式或變量。
幻方量化最初由創始人梁文鋒在成都一間公寓內創辦,他是浙江大學計算機科學專業畢業生,當時專注嘗試自動化股票交易。
到 2021 年,幻方量化所有策略都在使用人工智能。幻方董事總經理蔡力宇曾表示,人工智能有助於從海量數據集中提取有價值的數據,這些數據可用於預測股價和做出投資決策。
如今幻方利用其積累的 AI 知識和基礎設施創建出 MoE 大模型 DeepSeek-V2,專家表示,該模型的實力與美國主流大模型相當。
DeepSeek-V2 的推出迅速引起了業界的廣泛關注,這一 AI 模型不僅能夠回答問題、編寫代碼和進行推理,其成本也顯著低於競爭對手,每百萬輸出 Tokens 僅需約 2 元人民幣。
這一價格優勢引發了中國 AI 大模型 “價格戰”,字節、阿里和百度紛紛降低了其 AI 服務的價格,同時也凸顯出中國 AI 市場競爭的激烈程度。
海量算力優勢
DeepSeek 的模型能力出眾背後離不開充足的算力。
該公司的首個計算集羣 “螢火一號” 耗資近 2 億元人民幣,幻方量化正在投資約 10 億元建造第二個超算集羣 “螢火二號”,該集羣規模相當於一個足球場的大小。蔡力宇補充説,幻方的大部分利潤都投入到了人工智能基礎設施中。
根據該公司網站數據,第二個集羣現已完工,將 10000 多張英偉達處理器和存儲連接起來,使 DeepSeek 擁有足夠的算力訓練大模型。
據國盛證券報告,幻方量化是中國六家擁有超過萬張 A100 處理器的公司之一,這通常被認為是自行訓練大模型的算力門檻。
此外,DeepSeek 模型還採用開源方式,允許研究人員檢視其架構並複製。DeepSeek-V2 的架構被認為非常獨特,採用了混合專家的理念,將模型分成更小的模塊,提高了處理效率和準確性。
總部位於美國的 AI 動畫初創公司 Cartwheel 的首席科學家 Andrew Carr 表示,DeepSeek 將這種稱為 “混合專家” 的想法發揮到了極致,即將模型分成更小的塊,擁有數百個小專家。
