Wallstreetcn
2023.11.13 23:58
portai
I'm PortAI, I can summarize articles.

老黄深夜炸场,世界最强 AI 芯片 H200 震撼发布!

性能飙升 90%,Llama 2 推理速度翻倍,大批超算中心来袭!大科技公司们又要开始囤货了。

英伟达的节奏,越来越可怕了。

就在刚刚,老黄又一次在深夜炸场——发布目前世界最强的 AI 芯片 H200!

较前任霸主 H100,H200 的性能直接提升了 60% 到 90%。

不仅如此,这两款芯片还是互相兼容的。这意味着,使用 H100 训练/推理模型的企业,可以无缝更换成最新的 H200。

全世界的 AI 公司都陷入算力荒,英伟达的 GPU 已经千金难求。英伟达此前也表示,两年一发布的架构节奏将转变为一年一发布。

就在英伟达宣布这一消息之际,AI 公司们正为寻找更多 H100 而焦头烂额。

英伟达的高端芯片价值连城,已经成为贷款的抵押品。

谁拥有 H100,是硅谷最引人注目的顶级八卦

至于 H200 系统,英伟达表示预计将于明年二季度上市。

同在明年,英伟达还会发布基于 Blackwell 架构的 B100,并计划在 2024 年将 H100 的产量增加两倍,目标是生产 200 多万块 H100。

而在发布会上,英伟达甚至全程没有提任何竞争对手,只是不断强调「英伟达的 AI 超级计算平台,能够更快地解决世界上一些最重要的挑战。」

随着生成式 AI 的大爆炸,需求只会更大,而且,这还没算上 H200 呢。赢麻了,老黄真的赢麻了!

141GB 超大显存,性能直接翻倍!

H200,将为全球领先的 AI 计算平台增添动力。

它基于 Hopper 架构,配备英伟达 H200 Tensor Core GPU 和先进的显存,因此可以为生成式 AI 和高性能计算工作负载处理海量数据。

英伟达 H200 是首款采用 HBM3e 的 GPU,拥有高达 141GB 的显存。

与 A100 相比,H200 的容量几乎翻了一番,带宽也增加了 2.4 倍。与 H100 相比,H200 的带宽则从 3.35TB/s 增加到了 4.8TB/s。

英伟达大规模与高性能计算副总裁 Ian Buck 表示——

要利用生成式人工智能和高性能计算应用创造智能,必须使用大型、快速的 GPU 显存,来高速高效地处理海量数据。借助 H200,业界领先的端到端人工智能超算平台的速度会变得更快,一些世界上最重要的挑战,都可以被解决。

Llama 2 推理速度提升近 100%

跟前代架构相比,Hopper 架构已经实现了前所未有的性能飞跃,而 H100 持续的升级,和 TensorRT-LLM 强大的开源库,都在不断提高性能标准。

H200 的发布,让性能飞跃又升了一级,直接让 Llama2 70B 模型的推理速度比 H100 提高近一倍!

H200 基于与 H100 相同的 Hopper 架构。这就意味着,除了新的显存功能外,H200 还具有与 H100 相同的功能,例如 Transformer Engine,它可以加速基于 Transformer 架构的 LLM 和其他深度学习模型。

HGX H200 采用英伟达 NVLink 和 NVSwitch 高速互连技术,8 路 HGX H200 可提供超过 32 Petaflops 的 FP8 深度学习计算能力和 1.1TB 的超高显存带宽。

当用 H200 代替 H100,与英伟达 Grace CPU 搭配使用时,就组成了性能更加强劲的 GH200 Grace Hopper 超级芯片——专为大型 HPC 和 AI 应用而设计的计算模块。

下面我们就来具体看看,相较于 H100,H200 的性能提升到底体现在哪些地方。

首先,H200 的性能提升最主要体现在大模型的推理性能表现上。

如上所说,在处理 Llama 2 等大语言模型时,H200 的推理速度比 H100 提高了接近 1 倍。

因为计算核心更新幅度不大,如果以训练 175B 大小的 GPT-3 为例,性能提升大概在 10% 左右。

显存带宽对于高性能计算(HPC)应用程序至关重要,因为它可以实现更快的数据传输,减少复杂任务的处理瓶颈。

对于模拟、科学研究和人工智能等显存密集型 HPC 应用,H200 更高的显存带宽可确保高效地访问和操作数据,与 CPU 相比,获得结果的时间最多可加快 110 倍。

相较于 H100,H200 在处理高性能计算的应用程序上也有 20% 以上的提升。

而对于用户来说非常重要的推理能耗,H200 相比 H100 直接腰斩。

这样,H200 能大幅降低用户的使用成本,继续让用户「买的越多,省的越多」!

上个月,外媒 SemiAnalysis 曾曝出一份英伟达未来几年的硬件路线图,包括万众瞩目的 H200、B100 和「X100」GPU。

而英伟达官方,也公布了官方的产品路线图,将使用同一构架设计三款芯片,在明年和后年会继续推出 B100 和 X100。

B100,性能已经望不到头了

这次,英伟达更是在官方公告中宣布了全新的 H200 和 B100,将过去数据中心芯片两年一更新的速率直接翻倍。

以推理 1750 亿参数的 GPT-3 为例,今年刚发布的 H100 是前代 A100 性能的 11 倍,明年即将上市的 H200 相对于 H100 则有超过 60% 的提升,而再之后的 B100,性能更是望不到头。

至此,H100 也成为了目前在位最短的「旗舰级」GPU。

如果说 H100 现在就是科技行业的「黄金」,那么英伟达又成功制造了「铂金」和「钻石」。

H200 加持,新一代 AI 超算中心大批来袭

云服务方面,除了英伟达自己投资的 CoreWeave、Lambda 和 Vultr 之外,亚马逊云科技、谷歌云、微软 Azure 和甲骨文云基础设施,都将成为首批部署基于 H200 实例的供应商。

此外,在新的 H200 加持之下,GH200 超级芯片也将为全球各地的超级计算中心提供总计约 200 Exaflops 的 AI 算力,用以推动科学创新。

在 SC23 大会上,多家顶级超算中心纷纷宣布,即将使用 GH200 系统构建自己的超级计算机。

德国尤里希超级计算中心将在超算 JUPITER 中使用 GH200 超级芯片。

这台超级计算机将成为欧洲第一台超大规模超级计算机,是欧洲高性能计算联合项目(EuroHPC Joint Undertaking)的一部分。

Jupiter 超级计算机基于 Eviden 的 BullSequana XH3000,采用全液冷架构。

它总共拥有 24000 个英伟达 GH200 Grace Hopper 超级芯片,通过 Quantum-2 Infiniband 互联。

每个 Grace CPU 包含 288 个 Neoverse 内核, Jupiter 的 CPU 就有近 700 万个 ARM 核心。

它能提供 93 Exaflops 的低精度 AI 算力和 1 Exaflop 的高精度(FP64)算力。这台超级计算机预计将于 2024 年安装完毕。

由筑波大学和东京大学共同成立的日本先进高性能计算联合中心,将在下一代超级计算机中采用英伟达 GH200 Grace Hopper 超级芯片构建。

作为世界最大超算中心之一的德克萨斯高级计算中心,也将采用英伟达的 GH200 构建超级计算机 Vista。

伊利诺伊大学香槟分校的美国国家超级计算应用中心,将利用英伟达 GH200 超级芯片来构建他们的超算 DeltaAI,把 AI 计算能力提高两倍。

此外,布里斯托大学将在英国政府的资助下,负责建造英国最强大的超级计算机 Isambard-AI——将配备 5000 多颗英伟达 GH200 超级芯片,提供 21 Exaflops 的 AI 计算能力。

英伟达、AMD、英特尔:三巨头决战 AI 芯片

GPU 竞赛,也进入了白热化。

面对 H200,而老对手 AMD 的计划是,利用即将推出的大杀器——Instinct MI300X 来提升显存性能。

MI300X 将配备 192GB 的 HBM3 和 5.2TB/s 的显存带宽,这将使其在容量和带宽上远超 H200。

而英特尔也摩拳擦掌,计划提升 Gaudi AI 芯片的 HBM 容量,并表示明年推出的第三代 Gaudi AI 芯片将从上一代的 96GB HBM2e 增加到 144GB。

英特尔 Max 系列目前的 HBM2 容量最高为 128GB,英特尔计划在未来几代产品中,还要增加 Max 系列芯片的容量。

H200 价格未知

所以,H200 卖多少钱?英伟达暂时还未公布。

要知道,一块 H100 的售价,在 25000 美元到 40000 美元之间。训练 AI 模型,至少需要数千块。

此前,AI 社区曾广为流传这张图片《我们需要多少个 GPU》。

GPT-4 大约是在 10000-25000 块 A100 上训练的;Meta 需要大约 21000 块 A100;Stability AI 用了大概 5000 块 A100;Falcon-40B 的训练,用了 384 块 A100。

根据马斯克的说法,GPT-5 可能需要 30000-50000 块 H100。摩根士丹利的说法是 25000 个 GPU。

Sam Altman 否认了在训练 GPT-5,但却提过「OpenAI 的 GPU 严重短缺,使用我们产品的人越少越好」。

我们能知道的是,等到明年第二季度 H200 上市,届时必将引发新的风暴。

本文来源:新智元(ID:AI_era),原文标题:《老黄深夜炸场,世界最强 AI 芯片 H200 震撼发布!性能飙升 90%,Llama 2 推理速度翻倍,大批超算中心来袭》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。