初探 GB200 參考設計

初探 GB200 參考設計，GB200 性能可能會成為大殺器，整體推理性能的提升可能是 20-40 倍。除以價格因素，依然可以獲得 10 倍以上 per dollar 的性能提升。該設計適合推薦系統，但價格昂貴，可能給 AMD 帶來競爭壓力。CX7 和 CX8 是兩種參考設計，B200 的價格有競爭力。GB200 的性能提升了 2 倍多，具體網絡配置和架構設計有待了解。

GB200 性能可能會成為大殺器，整體推理性能的提升可能是 20-40 倍...除以價格因素，依然可以獲得 10 倍以上 per dollar 的性能提升。

首先我們得先想清楚一個問題，做這個給誰用？現在有幾個不同的觀點。其一，回看當初的 GH200，對推薦系統的提升效果尤其明顯（下圖）

此外從之前我們探討的 meta 報告中給出的不同模型的能力需求雷達圖中，也可以看到，推薦系統模型的特點是對 Memory Capacity（注意這裏不見得是 HBM，應該包括了 DDR）的要求尤其高。因此 GH200 通過 grace hopper 實現的統一大內存（恐怖的 144TB DDR），的確非常適合推薦系統。這裏又會讓人聯想到近期 NV 反覆與市場強調的正在爆發的推薦引擎推理需求。

但這裏的確有個問題，1）這玩意很貴；2）費這麼大勁定義這麼牛逼的一個系統，不可能只面向推薦系統的少數巨頭。3）推薦系統不需要如此強的帶寬，豈不是浪費？具體網絡配置和架構設計

該文件中，專門區分了 CX7 和 CX8 兩種參考設計，另一個 J 總也透露，可能在 B100 沿用 CX7，B200 才會升級到 CX8（特別是前後版本 NVlink，尋址空間從 256 直接到了 2000…）。價格上 GB200（1 Grace+2GB100）接近 7 萬美金。而文件中展示的 B100 和 B200 的價格，的確非常有競爭力，會給 AMD 相當大壓力...

我們回到前面探討的產品定位問題。表面上看又是一個巨貴的玩意兒（NVL72 rack 是 250 萬美金）。但從性能的提升看，過去 GH200 在 LLM 65B 上的推理速度相比 H100 提升了 2 倍多，在 VectorDB 和 DLRM 上的相比 H100 提升了 5-6 倍。假設在 LLM 負載上，B100 相比 H100 的提升是 4 倍（兩顆 die+ 更大的 HBM），GB200 相比 B100 的提升是 2-3 倍（nvlink 升級 +grace hopper vs pcie），這裏還沒考慮軟件的優化，之前 tensor-RT 優化過的推理任務提升也是好幾倍。幾個因子相乘，整體推理性能的提升可能是 20-40 倍...當然你要除以價格因素（2.3 萬美金 vs7 萬美金），依然獲得了 10 倍以上 per dollar 的性能提升...

如果上述我們的推演大差不差，那這一次 GB200 的性能的確可能會成為大殺器。上一代 GH200 相比 H100 的提升不夠明顯、推出時間拉的太長、價格因子放到分母被攤平....讓 GH200 顯得沒有那麼驚豔。這一次的 GB200 似乎的確值得期待。其實就等下面這張圖，NV 何時給我們放出後續，看 GB200 的那根柱子能捅到哪裏去.......

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。