初探 GB200 參考設計

華爾街見聞
2024.03.15 11:13
portai
I'm PortAI, I can summarize articles.

初探 GB200 參考設計,GB200 性能可能會成為大殺器,整體推理性能的提升可能是 20-40 倍。除以價格因素,依然可以獲得 10 倍以上 per dollar 的性能提升。該設計適合推薦系統,但價格昂貴,可能給 AMD 帶來競爭壓力。CX7 和 CX8 是兩種參考設計,B200 的價格有競爭力。GB200 的性能提升了 2 倍多,具體網絡配置和架構設計有待了解。

GB200 性能可能會成為大殺器,整體推理性能的提升可能是 20-40 倍...除以價格因素,依然可以獲得 10 倍以上 per dollar 的性能提升。

首先我們得先想清楚一個問題,做這個給誰用?現在有幾個不同的觀點。其一,回看當初的 GH200,對推薦系統的提升效果尤其明顯(下圖)

此外從之前我們探討的 meta 報告中給出的不同模型的能力需求雷達圖中,也可以看到,推薦系統模型的特點是對 Memory Capacity(注意這裏不見得是 HBM,應該包括了 DDR)的要求尤其高。因此 GH200 通過 grace hopper 實現的統一大內存(恐怖的 144TB DDR),的確非常適合推薦系統。這裏又會讓人聯想到近期 NV 反覆與市場強調的正在爆發的推薦引擎推理需求。

但這裏的確有個問題,1)這玩意很貴;2)費這麼大勁定義這麼牛逼的一個系統,不可能只面向推薦系統的少數巨頭。3)推薦系統不需要如此強的帶寬,豈不是浪費?具體網絡配置和架構設計

該文件中,專門區分了 CX7 和 CX8 兩種參考設計,另一個 J 總也透露,可能在 B100 沿用 CX7,B200 才會升級到 CX8(特別是前後版本 NVlink,尋址空間從 256 直接到了 2000…)。價格上 GB200(1 Grace+2GB100)接近 7 萬美金。而文件中展示的 B100 和 B200 的價格,的確非常有競爭力,會給 AMD 相當大壓力...

我們回到前面探討的產品定位問題。表面上看又是一個巨貴的玩意兒(NVL72 rack 是 250 萬美金)。但從性能的提升看,過去 GH200 在 LLM 65B 上的推理速度相比 H100 提升了 2 倍多,在 VectorDB 和 DLRM 上的相比 H100 提升了 5-6 倍。假設在 LLM 負載上,B100 相比 H100 的提升是 4 倍(兩顆 die+ 更大的 HBM),GB200 相比 B100 的提升是 2-3 倍(nvlink 升級 +grace hopper vs pcie),這裏還沒考慮軟件的優化,之前 tensor-RT 優化過的推理任務提升也是好幾倍。幾個因子相乘,整體推理性能的提升可能是 20-40 倍...當然你要除以價格因素(2.3 萬美金 vs7 萬美金),依然獲得了 10 倍以上 per dollar 的性能提升...

如果上述我們的推演大差不差,那這一次 GB200 的性能的確可能會成為大殺器。上一代 GH200 相比 H100 的提升不夠明顯、推出時間拉的太長、價格因子放到分母被攤平....讓 GH200 顯得沒有那麼驚豔。這一次的 GB200 似乎的確值得期待。其實就等下面這張圖,NV 何時給我們放出後續,看 GB200 的那根柱子能捅到哪裏去.......

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。