
和 H100 相比,英伟达特供中国的 AI 芯片性能如何?

理论上 H100 比 H20 的速度快 6 倍以上,但在 LLM 推理方面,H20 比 H100 快了超过 20%。
据媒体最新报道,英伟达即将推出至少三款新的 AI 芯片,包括 H20 SXM、PCIe L20 和 PCIe L2,以替代被美国限制出口的 H100。这三款芯片均基于 Hopper GPU 架构,最高理论性能可达 296TFLOP(每秒浮点运算次数,也叫每秒峰值速度)。
几乎可以肯定的是,这三款 AI 芯片均是 H100 的 “阉割版” 或 “缩水版”。
理论上 H100 比 H20 的速度快了 6.68 倍。据分析师 Dylan Petal 最新发布的一篇博文,即使 H20 的实际利用率能达到 90%,其在实际多卡互联环境中的性能仍只能接近 H100 的 50%。
也有媒体称,H20 的综合算力仅相当于 H100 的 20%,且由于增加了 HBM 显存和 NVLink 互联模块,算力成本显著提高。
不过,H20 的优点也很明显,在大语言模型(LLM)推理方面比 H100 快了 20% 以上。理由是 H20 在某些方面与明年要发布的下一代超级 AI 芯片 H200 相似。
英伟达已经做出这三款芯片的样品,H20 和 L20 预计将于今年 12 月推出,而 L2 将于明年 1 月推出。产品采样将于发布前一个月开始。
H20 Vs. H100
先来看 H100,拥有 80GB HBM3 内存,内存带宽为 3.4Tb/s,理论性能为 1979 TFLOP,性能密度(TFLOPs/Die size )高达 19.4,是英伟达当前产品线中最强大的 GPU。
H20,拥有 96GB HBM3 内存,内存带宽高达 4.0 Tb/s,均高于 H100,但计算能力仅为 296 TFLOP,性能密度为 2.9,远不如 H100。
理论上 H100 相比 H20 的速度快了 6.68 倍。但值得注意的是,这个比较是基于 FP16 Tensor Core 的浮点计算能力 (FP16 Tensor Core FLOPs),且启用了稀疏计算(大大减少运算量,因此速度会有显著提升),因此并不能全面反映其所有的计算能力。
另外,该 GPU 的热设计功耗为 400W,低于 H100 的 700W,并且在 HGX 解决方案 (英伟达的 GPU 服务器方案) 中可以进行 8 路 GPU 的配置,它还保留了 900 GB/s 的 NVLink 高速互联功能,同时还提供了 7 路 MIG(Multi-Instance GPU,多实例 GPU) 的功能。
H100 SXM TF16(Sparsity)FLOPS = 1979
H20 SXM TF16(Sparsity)FLOPS = 296
根据 Peta 的 LLM 性能对比模型表明,H20 在 moderate batch size 下峰值 token/秒,比 H100 高出 20%,在 low batch size 下的 token to token 延迟比 H100 还要低 25%。这是由于将推理所需的芯片数量从 2 个减少到 1 个,如果再使用 8 位量化,LLAMA 70B 模型可以在单个 H20 上有效运行,而不是需要 2 个 H100。
值得一提的是,H20 的计算能力虽然只有 296 个 TFLOP,远不及 H100 的 1979 个,但如果 H20 的实际利用率 MFU(目前 H100 的 MFU 仅为 38.1%),这意味着 H20 实际能跑出 270 TFLOPS,那么 H20 在实际多卡互联环境中的性能接近 H100 的 50%。
从传统计算的角度来看,H20 相比 H100 有所降级,但在 LLM 推理这一方面,H20 实际上会比 H100 快了 20% 以上,理由是 H20 在某些方面与明年要发布的 H200 相似。注意,H200 是 H100 的后继产品,复杂 AI 和 HPC 工作负载的超级芯片。
L20 和 L2 配置更加精简
与此同时,L20 配备 48 GB 内存和计算性能为 239 个 TFLOP,而 L2 配置为 24 GB 内存和计算性能 193 个 TFLOP。
L20 基于 L40,L2 基于 L4,但这两款芯片在 LLM 推理和训练中并不常用。
L20 和 L2 均采用 PCIe 外形规格,采用了适合工作站和服务器的 PCIe 规格,相比 Hopper H800 和 A800 这些规格更高的型号,配置也更加精简。
但是英伟达用于 AI 和高性能计算的软件堆栈对某些客户来说非常有价值,以至于他们不愿放弃 Hopper 架构,即使规格降级也在所不惜。
L40 TF16 (Sparsity) FLOPs = 362
L20 TF16 (Sparsity) FLOPs = 239
L4 TF16 (Sparsity) FLOPs = 242
L2 TF16 (Sparsity) FLOPs = 193
