A comprehensive understanding of NVIDIA's "new GPU": 5 times faster than H100? 1200W power consumption? Liquid cooling? How does it compare to MI300X?

華爾街見聞
2024.03.19 08:38
portai
I'm PortAI, I can summarize articles.

與競品相比 Blackwell 性能表現出色,但要想要發揮 Blackwell 的最大潛力,轉向液冷幾乎成為必須。

作者:趙穎

來源:硬 AI

“Hopper 很棒,但我們需要更強大的 GPU”,時隔兩年黃仁勳在英偉達 AI 盛會 GTC,重磅發佈新一代 Blackwell 架構 GPU。

隨着生成式 AI 的興起,英偉達正用更強大的芯片吸引客户,Blackwell 架構被寄予厚望,性能方面實現飛躍。

據媒體週一分析,作為 Hopper 架構的後繼者,Blackwell 在性能提升方面表現出色,最高規格的 Blackwell 芯片浮點運算速度(FLOPS)大約快了 5 倍,能耗也進一步優化,與 AMD MI300X GPU 相比顯現出強大競爭力,鞏固了英偉達在性能和能效方面的技術優勢。

性能提升的關鍵在於 Blackwell 價格設計,每款 GPU 實際上由兩顆 Compute Die 集成,通過 10TB/秒的 NVLink-HBI(高帶寬接口)技術連接,使得它們能夠作為單個加速器工作。

此外,兩顆計算芯片周圍配備了 8 個 8 層堆疊 HBM3e 內存,總容量可達 192GB,帶寬高達 8TB/秒。與 H100 和 H200 不同,B100 和 B200 在內存和 GPU 帶寬上保持一致。目前,Blackwell 系列包括三個型號:B100、B200 和 Grace-Blackwell Superchip(GB200)。

此外,想要發揮最大性能並非易事,需要考慮眾多因素。儘管英偉達宣稱新芯片算力能夠達到 20petaflops,但這一性能指標是基於使用新推出的 FP4 精度,並採用液冷服務器的情況下測得的。想要發揮 Blackwell 的最大潛力,轉向液態冷卻幾乎成為必須。若比較與上一代芯片 H100 的 FP8 性能,新芯片的速度僅提升約 2.5 倍。

GB200 超級芯片性能強悍

英偉達最強大的 GPU 集成在 GB200 芯片中,類似於 Grace-Hopper 芯片,Grace-Blackwell Superchip 將現有的 72 核 Grace CPU 與 Blackwell GPU 利用 NVLink-C2C 連接技術相結合。

不過,與單個 H100GPU 不同,GB200 配備了兩個 Blackwell 加速器——使其計算性能達到 40petaflops,並擁有 384GB 的 HBM3e 內存。

先前的 GH200 被標註為 1000W——包括 700W 的 GPU 和 300W 的 Arm CPU。因此,可以粗略估算,在全負荷下,GB200——包括兩個 GPU,每個 1200W,以及相同的 Arm CPU——可能的總功耗大約為 2700W。因此,英偉達直接採用液冷系統也就不足為奇了。

去掉笨重的熱散佈器,改為安裝幾個冷卻板,英偉達能夠將這兩個加速器緊湊地安裝在一個 1U 機架系統內,該機架能提供高達 80 千萬億次浮點運算的計算性能,或者以 FP8 計算達到 40 千萬億次浮點運算。

與上一代相比,這種雙 GB200 系統能夠提供比其 8U 10.2kW DGX H100 系統更多的計算性能——40 petaflops 對比 32petaflops——同時所需空間減少到八分之一。

新一代 NVLink 連接方案使性能大幅提升

GB200 構成了 Nvidia NVL72 機架級 AI 系統的核心,GB200 NVL72 則是一款機架級系統,它使用 NVLink 交換設備將 36 個 GB200 拼接成一個系統 。該系統旨在支持大規模的訓練和推理任務,可處理高達 27 萬億個參數的大語言模型。

根據英偉達介紹,在訓練領域,該系統性能達到在 FP8 精度下能達到 720petaflops。而在推理工作負載方面,該系統的計算能力可達 FP4 下的 1.44exaFLOPS 。如果這還不夠,八個 NVL72 機架可以互聯,組成 “巨無霸” DGX BG200 Superpod。

每個機架裝配了 18 個節點,共計 32 個 Grace GPU 和 72 個 Blackwell 加速器。然後,這些節點通過一系列九個 NVLink 開關進行互連,使得這些節點像單個 13.5TB HBM3e 內存的 GPU 節點一樣工作。

這基本上是 Nvidia 在之前的 DGX 系統中所採用的同樣技術,使得八個 GPU 像單卡 GPU 一樣運作。不同之處在於,Nvidia 利用專用的 NVLink 設備,實現了對更多 GPU 的支持。新一代 NVLink 為每個 GPU 提供 1.8TB/s 雙向帶寬,支持多達 576 個 GPU 間的無縫高速通信。

散熱需求激增,液冷或成必備

儘管英偉達新一代產品並不強制要求使用液冷,但若想充分利用英偉達的旗艦芯片,液態冷卻幾乎是必選的。

對於 B100、B200 和 GB200,其主要區別在於功率和性能。據英偉達介紹,這些芯片的工作功率範圍可在 700W 至 1200W 之間,視具體型號和冷卻方式而定。

在不同的功率工作狀態下,芯片的性能自然也會有所不同。英偉達指出,採用空氣冷卻系統的 HGX B100 設備可以在每塊 GPU 上實現 14petaflops 的速度,同時功耗與 H100 相當。這意味着,如果數據中心已能夠支持英偉達的 DGX H100 系統,那麼引入 B100 節點應不會遇到問題。

而 B200 則更加引人關注,在採用空氣冷卻的 HGX 或 DGX 架構中,每塊 GPU 能提供 18petaflops 的計算能力,同時功耗達到一千瓦。據英偉達稱,DGX B200 機箱配備 8 個 B200GPU 的總功耗約為 14.3kW,這意味着在機架功率和散熱方面需要約 60kW 的額外容量。

對於專門為 AI 集羣設計的新數據中心來説,這不是問題;但對於現有設施,挑戰可能更大。

在 AI 數據中心領域,想要發揮 Blackwell 的最大潛力,轉向液態冷卻幾乎成為必須。在液冷配置下,芯片在滿負荷運作時的熱輸出可以達到 1200W,同時實現 20petaflops 的性能。

與競品相比,Blackwell 仍具優勢

雖然英偉達正主導 AI 基礎設施市場,但它並非唯一參與者,重量級對手英特爾和 AMD 正在推出 Gaudi 和 Instinct 加速器,雲服務商正推動自家定製芯片,AI 創業公司如 Cerebras 和 Samba Nova 也在競爭中佔據一席之地。

以 AMD 去年 12 月推出的 MI300X GPU 相比,Blackwell 仍具備優勢:

MI300X 利用先進的封裝技術,將八個 CDNA 3 計算單元垂直堆疊在四個 I/O 芯片上,這些芯片為 GPU 之間以及與 192GBHBM3 內存之間提供高速通信。

在性能方面,MI300X 在 FP8 浮點計算中提供 30% 的性能優勢,在與 Nvidia H100 為主的高性能計算集中型雙精度工作負載中,幾乎具有 2.5 倍的領先優勢。將 750W 的 MI300X 與 700W 的 B100 對比,英偉達的芯片在 sparse 性能方面快了 2.67 倍。

此外,儘管這兩款芯片現在都包含了 192GB 的高帶寬內存,但 Blackwell 部件的內存速度快了 2.8TB/秒。而內存帶寬已被證明是 AI 性能的關鍵指標,特別是在推理方面。例如,英偉達 H200 本質上是 H100 加強帶寬的版本。儘管 FLOPS 相同,英偉達聲稱 H200 在如 Meta 的 Llama2 70B 模型中的速度是 H100 的兩倍。

雖然英偉達在低精度領域保持明顯領先,但可能犧牲了雙精度性能,AMD 近年來在此類性能方面表現突出,贏得了多項高端超級計算機獎項。

分析預計,在 2024 年對 AI 新品的需求將遠遠超過供應,在這種情況下,贏得市場份額並不總是意味着擁有更快的芯片,關鍵是哪些芯片能夠上市發貨。儘管 Blackwell 性能令人興奮,但在買家拿到它們之前還需要一段時間,B200 和 GB200 產能爬坡似乎要等到 2025 年初。