DeepSeek Open Source Weekly Review - 2: DeepSeek open-sourced in the morning, Nvidia integrated in the afternoon
DeepSeek 在開源周第二天推出了 MoE EP 通信的實現,支持高效的全到全通信、NVLink 和 RDMA 的節點間支持、高吞吐量和低延遲的推理內核等功能。Nvidia 迅速將其集成到 Megatron-LLM,顯示出 DeepSeek 對 Nvidia 生態的重大影響。Nvidia 內部將 DeepSeek 的支持視為重要項目,優先級高於 Llama。
今天是 DeepSeek 開源周第二彈,果然把眾望所歸的 MoE EP 通信的實現給開源了,支持以下 feature:
✅ Efficient and optimized all-to-all communication
✅ Both intranode and internode support with NVLink and RDMA
✅ High-throughput kernels for training and inference prefilling
✅ Low-latency kernels for inference decoding
✅ Native FP8 dispatch support
✅ Flexible GPU resource control for computation-communication overlapping
Quote 某位大佬的評論,寫這個通訊庫的同學能力是世界級的,不愧是清華超算隊出身 + 在 nv 實習過,一般人想不出來:
-
對同步機制的理解是大師級的
-
非常理解最小化讀寫指令數量,儘可能使用 64/128bits 讀寫指令
-
儘可能不使用 CPU 的網卡驅動
-
使用極其偏門的 OPEN_SH_MEM 通訊庫
-
直接改了 NV 的 SM 核來做通信
-
可能比很多 NV 的人都更懂 NV 底層
和我們昨天以及今天的分析一致,DeepSeek 的開源,尤其是 infra 開源,在短期是極大的加強了 NV 生態的護城河,NV 有種躺贏的感覺。比如,今天 DeepEP 上午開源,Nvidia 這邊下午就集成到了 Megatron-LLM。據瞭解,老黃在 NV 內部把 DeepSeek 的支持重要性排到了 Llama 之前,成為了最重要的開源項目,內部的資源和流程也是一路綠燈。DeepSeek 本身也是基於 Nvidia 的 GPU 全面優化的,比如改寫 SM 核來做通信,AMD 的 GPU 就不支持...

無獨有偶,今天 Nvidia 也發佈了 B200 的 DeepSeek R1 適配情況,飆升到了 21,088 Token/s。B200 8T 的帶寬 +FP4,理論上直接就能比 H200 有 3.33x 的效果提升,這也和這張官方表的情況是類似的。相信後續隨着 NV 的進一步優化,TPS 還能提升。比較有意思的是,NV 官方表示,FP4 的準確度只比 FP8 低了 0.2%,非常期待進一步的 benchmark。

不過,如果模型不能繼續 scale up,看起來 DeepEP 的結果也很明確,稀疏 MoE 的通信 bottleneck 是 RDMA scale out 而不是 scale up,NVLink 的硬件壁壘是可能受到影響的。

今天還有一條新聞,路透社表示,DeepSeek R2 原本計劃未來幾個月發佈,而公司現在希望儘快推出。
我們也分析過,NSA(Native Sparse Attention) 的發佈,可以説就是為了進一步增強長文本和長 CoT 準備的,DeepSeek 的實驗也表示,NSA 甚至比傳統的 full attention,在長文本上的表現更好且更快!這也是為了 R2 和 V4,做了進一步的 infra level 的準備。

據我們瞭解,R1 其實是一個比較 “粗糙” 的工作,而參考從 o1 到 o3 的過程,通過進一步細化 CoT 和數據準備等等,是可以確定性的在下一個版本看到智能的飛躍的。DeepSeek R2 是有希望達到 o3 level 的水平的,在 coding 方面,也是有希望可以達到 claude 3.5 sonnet 的。參考下圖,之前 o3 對比 o1 的能力,如果這樣一個強大的模型能夠進一步開源,相信對於整個下游應用和模型生態,都有巨大的推動作用。


非常期待 DeepSeek 下面 V4 和 R2 的工作。

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。