
Compared to the H100, how does the performance of NVIDIA's AI chips specially designed for China, fare?

理論上 H100 比 H20 的速度快 6 倍以上,但在 LLM 推理方面,H20 比 H100 快了超過 20%。
據媒體最新報道,英偉達即將推出至少三款新的 AI 芯片,包括 H20 SXM、PCIe L20 和 PCIe L2,以替代被美國限制出口的 H100。這三款芯片均基於 Hopper GPU 架構,最高理論性能可達 296TFLOP(每秒浮點運算次數,也叫每秒峯值速度)。
幾乎可以肯定的是,這三款 AI 芯片均是 H100 的 “閹割版” 或 “縮水版”。
理論上 H100 比 H20 的速度快了 6.68 倍。據分析師 Dylan Petal 最新發布的一篇博文,即使 H20 的實際利用率能達到 90%,其在實際多卡互聯環境中的性能仍只能接近 H100 的 50%。
也有媒體稱,H20 的綜合算力僅相當於 H100 的 20%,且由於增加了 HBM 顯存和 NVLink 互聯模塊,算力成本顯著提高。
不過,H20 的優點也很明顯,在大語言模型(LLM)推理方面比 H100 快了 20% 以上。理由是 H20 在某些方面與明年要發佈的下一代超級 AI 芯片 H200 相似。
英偉達已經做出這三款芯片的樣品,H20 和 L20 預計將於今年 12 月推出,而 L2 將於明年 1 月推出。產品採樣將於發佈前一個月開始。
H20 Vs. H100
先來看 H100,擁有 80GB HBM3 內存,內存帶寬為 3.4Tb/s,理論性能為 1979 TFLOP,性能密度(TFLOPs/Die size )高達 19.4,是英偉達當前產品線中最強大的 GPU。
H20,擁有 96GB HBM3 內存,內存帶寬高達 4.0 Tb/s,均高於 H100,但計算能力僅為 296 TFLOP,性能密度為 2.9,遠不如 H100。
理論上 H100 相比 H20 的速度快了 6.68 倍。但值得注意的是,這個比較是基於 FP16 Tensor Core 的浮點計算能力 (FP16 Tensor Core FLOPs),且啓用了稀疏計算(大大減少運算量,因此速度會有顯著提升),因此並不能全面反映其所有的計算能力。
另外,該 GPU 的熱設計功耗為 400W,低於 H100 的 700W,並且在 HGX 解決方案 (英偉達的 GPU 服務器方案) 中可以進行 8 路 GPU 的配置,它還保留了 900 GB/s 的 NVLink 高速互聯功能,同時還提供了 7 路 MIG(Multi-Instance GPU,多實例 GPU) 的功能。
H100 SXM TF16(Sparsity)FLOPS = 1979
H20 SXM TF16(Sparsity)FLOPS = 296
根據 Peta 的 LLM 性能對比模型表明,H20 在 moderate batch size 下峯值 token/秒,比 H100 高出 20%,在 low batch size 下的 token to token 延遲比 H100 還要低 25%。這是由於將推理所需的芯片數量從 2 個減少到 1 個,如果再使用 8 位量化,LLAMA 70B 模型可以在單個 H20 上有效運行,而不是需要 2 個 H100。
值得一提的是,H20 的計算能力雖然只有 296 個 TFLOP,遠不及 H100 的 1979 個,但如果 H20 的實際利用率 MFU(目前 H100 的 MFU 僅為 38.1%),這意味着 H20 實際能跑出 270 TFLOPS,那麼 H20 在實際多卡互聯環境中的性能接近 H100 的 50%。
從傳統計算的角度來看,H20 相比 H100 有所降級,但在 LLM 推理這一方面,H20 實際上會比 H100 快了 20% 以上,理由是 H20 在某些方面與明年要發佈的 H200 相似。注意,H200 是 H100 的後繼產品,複雜 AI 和 HPC 工作負載的超級芯片。
L20 和 L2 配置更加精簡
與此同時,L20 配備 48 GB 內存和計算性能為 239 個 TFLOP,而 L2 配置為 24 GB 內存和計算性能 193 個 TFLOP。
L20 基於 L40,L2 基於 L4,但這兩款芯片在 LLM 推理和訓練中並不常用。
L20 和 L2 均採用 PCIe 外形規格,採用了適合工作站和服務器的 PCIe 規格,相比 Hopper H800 和 A800 這些規格更高的型號,配置也更加精簡。
但是英偉達用於 AI 和高性能計算的軟件堆棧對某些客户來説非常有價值,以至於他們不願放棄 Hopper 架構,即使規格降級也在所不惜。
L40 TF16 (Sparsity) FLOPs = 362
L20 TF16 (Sparsity) FLOPs = 239
L4 TF16 (Sparsity) FLOPs = 242
L2 TF16 (Sparsity) FLOPs = 193
