Integrating 100,000 H100 GPUs! Musk launches super AI cluster project aiming to build the world's "most powerful artificial intelligence"

智通财经
2024.07.23 07:11
portai
I'm PortAI, I can summarize articles.

马斯克启动超级 AI 集群项目,以打造全球最强大人工智能。该项目将由 10 万个英伟达 H100 AI GPU 构建,并由超微电脑提供基础硬件设施。马斯克希望在今年 12 月之前完成该人工智能系统的建设。

智通财经 APP 获悉,特斯拉 CEO 兼 AI 领域初创公司 xAI 创始人马斯克 (Elon Musk) 正式启动建设 “世界上最强大的 AI 训练集群” 的这一庞大人工智能超算系统项目,目标是推动 xAI 在 12 月之前打造出 “世界上最强大的人工智能 (AI)”,该 AI 超算系统将由 10 万个英伟达 H100 AI GPU 倾力打造。有科技行业人士评论称,待英伟达新推出的 “地表最强性能” Blackwell 架构 AI GPU 于第四季度成功发货之后,xAI 可能将是第一批试用该 AI GPU 的客户。

据了解,马斯克在社交媒体 X(前身为推特) 上连续发帖,强调他创立的初创公司 xAI 启动了 “世界上最强大的 AI 训练集群” 项目,他力争在今年 12 月之前利用该 AI 训练集群创建出他所谓的 “世界上最强大的人工智能”。X 帖子上写道:今天,xAI 位于孟菲斯的超级 AI 集群开始使用 100,000 个基于液冷的英伟达 H100 GPU 进行 AI 训练,这些 GPU 与单一的 RDMA(远程直接数据存取) 结构相连。

据了解,AI 服务器领域领导者超微电脑 (SMCI.US) 为 xAI 这一超级 AI 集群项目提供大部分基础硬件设施,该公司首席执行官 Charles Liang 也在马斯克的帖子中发表评论,吹捧 xAI 团队的强大执行力。此前,Charles Liang 曾对马斯克倾力打造的液冷模式人工智能数据中心大加赞赏。

超微电脑的大型客户集中于 ChatGPT 以及 Sora 开发者 OpenAI 以及众多 AI 领域初创公司,其中就包括马斯克创立的 xAI,还包括甲骨文以及亚马逊 AWS 等云服务巨头。由于超微电脑长期以来与英伟达合作关系密切,因此深度绑定英伟达的这两家公司依靠着自身强大的供应链以及与英伟达长期合作关系,往往能够获得更大规模的英伟达 AI GPU 出货量。

超微电脑通过与英伟达的多年来密切合作关系,使用最新的英伟达 GPU 以及集成全套 CUDA 加速工具,为全球企业布局 AI 技术不可或缺的技术环节——AI 训练/推理工作负载,提供强大的 GPU 加速能力。并且超微电脑在服务器领域长期以来以其定制化服务器解决方案而闻名业内,可以根据客户的特定需求进行硬件配置优化。对于 xAI 这样的初创公司,这种定制化能力非常重要。

在后续推文中,马斯克解释称,全新的超级 AI 训练集群将 “训练出按各指标衡量的世界上最强大的人工智能”。根据之前的意向声明,有科技行业分析人士猜测 xAI 的 10 万 H100 GPU 超级集群现在将用于 Grok 3 超级人工智能大模型训练集群。马斯克表示,改进后的大语言模型 (LLM) 预计将在 “今年 12 月之前” 完成 AI 训练阶段。

从当前的规模来看,全新的 xAI 孟菲斯超级 AI 训练集群在英伟达 AI GPU 算力规模方面轻松超越了全球 500 强算力榜单中的任何一项 AI 算力集群。世界上最强大的超级 AI 算力体系,如 Frontier(37,888 个 AMD GPU)、Aurora(60,000 个英特尔 GPU) 以及 Microsoft Eagle(14,400 个英伟达 H100 GPU),似乎被 xAI 的 AI 集群远远甩在后面。

英伟达 AI GPU 需求仍然火爆! 新一轮股价涨势待发

据了解,在今年 5 月,有媒体报道称,马斯克计划在 2025 年秋季之前打造 xAI 超级算力工厂。当时,马斯克匆忙宣布超级 AI 训练集群的建设工作,在当时宣布将大举采购英伟达所推出的基于 Hopper 架构的 H100 AI GPU,在当时此举似乎表明,马斯克没有耐心等待英伟达下一代升级版的 H200 AI GPU,更不用在当时还未公布交付时间的基于 Blackwell 架构的 B100、B200 以及 GB 200 AI GPU。

但随着英伟达预计第四季度有望实现首批发货 Blackwell 架构 AI GPU,一些科技行业分析人士预计马斯克旗下 xAI 届时将是第一批试用该 AI GPU 的客户。在 3 月英伟达新发布的 Blackwell 架构 AI GPU 新闻稿中,马斯克就公开喊话称英伟达的 AI 硬件是 “最好的 AI 硬件”。马斯克还将科技企业的人工智能军备竞赛比作一场高风险的 “扑克游戏”,即企业需要每年在人工智能硬件上投入数十亿美元,才能保持竞争力。

英伟达的下一代架构 AI GPU——基于 Blackwell 的 AI GPU 家族将迎来全新的超高性能提升,亚马逊、戴尔、谷歌、Meta 以及微软等科技巨头们将在其最新的数据中心 AI 服务器系统中大量配置 Blackwell AI GPU,华尔街分析师们普遍猜测这些科技巨头对于英伟达硬件的需求将远远超出市场预期。近日有业内人士曝出,由于全球对于英伟达即将量产的 Blackwell 架构 AI GPU 需求极为强劲,英伟达已将其与芯片代工巨头台积电的 AI GPU 代工订单量大幅增加至少 25%。

英伟达当前最火爆的 AI 芯片 H100/H200 GPU 加速器则基于英伟达突破性的 Hopper GPU 架构,提供了相比于前代更加强大的计算能力,尤其是在浮点运算、张量核心性能和 AI 特定加速方面。更重磅的是,基于 Blackwell 架构的 AI GPU 性能远高于 Hopper 架构,在具有 1750 亿个参数级别的 GPT-3 LLM 基准上,Blackwell 架构的 GB200 推理性能是 H100 系统的 7 倍,并且提供了 4 倍于 H100 系统的训练速度。

正是基于英伟达将于年底前向市场推出新一代 Blackwell GPU 以及英伟达 H100/H200 AI GPU 需求仍然无比强劲 ,一些华尔街分析师预计这将刺激英伟达新一轮业绩与股价涨势,因此上调英伟达 12 个月内目标股价,认为英伟达股价新一轮涨势蓄势待发。

华尔街知名机构 Piper Sandler 近日重申其对英伟达的 “增持” 评级,并将 12 个月内目标价从 120 美元上调至 140 美元 (英伟达周一收于 123.54 美元)。另一机构 Loop Capital 近日将英伟达 12 个月内目标价从 120 美元上调至 175 美元,并维持对该股的 “买入” 评级。国际大行瑞银重申对英伟达 “买入” 评级,并将目标价从 120 美元上调至 150 美元。

Piper Sandler 在一份报告中写道:“调研数据显示英伟达全新 Blackwell 产品的预订量强劲,并且,现有产品如 H100 和 H200 的预订量仍然非常强劲。” Piper Sandler 预计,英伟达在截至 7 月的季度营收将比市场普遍预期高出约 20 亿美元。在上一季度财报中,英伟达营收比市场预期高出约 15 亿美元。