Compared to the H100, how does the performance of NVIDIA's AI chips specially designed for China, fare?

理论上 H100 比 H20 的速度快 6 倍以上，但在 LLM 推理方面，H20 比 H100 快了超过 20%。

据媒体最新报道，英伟达即将推出至少三款新的 AI 芯片，包括 H20 SXM、PCIe L20 和 PCIe L2，以替代被美国限制出口的 H100。这三款芯片均基于 Hopper GPU 架构，最高理论性能可达 296TFLOP（每秒浮点运算次数，也叫每秒峰值速度）。

几乎可以肯定的是，这三款 AI 芯片均是 H100 的 “阉割版” 或 “缩水版”。

理论上 H100 比 H20 的速度快了 6.68 倍。据分析师 Dylan Petal 最新发布的一篇博文，即使 H20 的实际利用率能达到 90%，其在实际多卡互联环境中的性能仍只能接近 H100 的 50%。

也有媒体称，H20 的综合算力仅相当于 H100 的 20%，且由于增加了 HBM 显存和 NVLink 互联模块，算力成本显著提高。

不过，H20 的优点也很明显，在大语言模型（LLM）推理方面比 H100 快了 20% 以上。理由是 H20 在某些方面与明年要发布的下一代超级 AI 芯片 H200 相似。

英伟达已经做出这三款芯片的样品，H20 和 L20 预计将于今年 12 月推出，而 L2 将于明年 1 月推出。产品采样将于发布前一个月开始。

H20 Vs. H100

先来看 H100，拥有 80GB HBM3 内存，内存带宽为 3.4Tb/s，理论性能为 1979 TFLOP，性能密度（TFLOPs/Die size ）高达 19.4，是英伟达当前产品线中最强大的 GPU。

H20，拥有 96GB HBM3 内存，内存带宽高达 4.0 Tb/s，均高于 H100，但计算能力仅为 296 TFLOP，性能密度为 2.9，远不如 H100。

理论上 H100 相比 H20 的速度快了 6.68 倍。但值得注意的是，这个比较是基于 FP16 Tensor Core 的浮点计算能力 (FP16 Tensor Core FLOPs)，且启用了稀疏计算（大大减少运算量，因此速度会有显著提升），因此并不能全面反映其所有的计算能力。

另外，该 GPU 的热设计功耗为 400W，低于 H100 的 700W，并且在 HGX 解决方案 (英伟达的 GPU 服务器方案) 中可以进行 8 路 GPU 的配置，它还保留了 900 GB/s 的 NVLink 高速互联功能，同时还提供了 7 路 MIG(Multi-Instance GPU，多实例 GPU) 的功能。

H100 SXM TF16（Sparsity）FLOPS = 1979
H20 SXM TF16（Sparsity）FLOPS = 296

根据 Peta 的 LLM 性能对比模型表明，H20 在 moderate batch size 下峰值 token/秒，比 H100 高出 20%，在 low batch size 下的 token to token 延迟比 H100 还要低 25%。这是由于将推理所需的芯片数量从 2 个减少到 1 个，如果再使用 8 位量化，LLAMA 70B 模型可以在单个 H20 上有效运行，而不是需要 2 个 H100。

值得一提的是，H20 的计算能力虽然只有 296 个 TFLOP，远不及 H100 的 1979 个，但如果 H20 的实际利用率 MFU（目前 H100 的 MFU 仅为 38.1%），这意味着 H20 实际能跑出 270 TFLOPS，那么 H20 在实际多卡互联环境中的性能接近 H100 的 50%。

从传统计算的角度来看，H20 相比 H100 有所降级，但在 LLM 推理这一方面，H20 实际上会比 H100 快了 20% 以上，理由是 H20 在某些方面与明年要发布的 H200 相似。注意，H200 是 H100 的后继产品，复杂 AI 和 HPC 工作负载的超级芯片。

L20 和 L2 配置更加精简

与此同时，L20 配备 48 GB 内存和计算性能为 239 个 TFLOP，而 L2 配置为 24 GB 内存和计算性能 193 个 TFLOP。

L20 基于 L40，L2 基于 L4，但这两款芯片在 LLM 推理和训练中并不常用。

L20 和 L2 均采用 PCIe 外形规格，采用了适合工作站和服务器的 PCIe 规格，相比 Hopper H800 和 A800 这些规格更高的型号，配置也更加精简。

但是英伟达用于 AI 和高性能计算的软件堆栈对某些客户来说非常有价值，以至于他们不愿放弃 Hopper 架构，即使规格降级也在所不惜。

L40 TF16 (Sparsity) FLOPs = 362
L20 TF16 (Sparsity) FLOPs = 239
L4 TF16 (Sparsity) FLOPs = 242
L2 TF16 (Sparsity) FLOPs = 193