谷歌称其 AI 超级计算机比 Nvidia A100 芯片系统更快、更环保
路透 4 月 4 日 - Alphabet 旗下谷歌周二公布其用于训练人工智能模型的超级计算机的新细节,称这些系统比 Nvidia(辉达/英伟达) 的同类系统更快更省电。
路透 4 月 4 日 - Alphabet (GOOGL.O) 旗下谷歌周二公布其用于训练人工智能模型的超级计算机的新细节,称这些系统比 Nvidia(辉达/英伟达) (NVDA.O) 的同类系统更快更省电。
谷歌已经设计自家芯片,名为 Tensor Processing Unit(TPU)。该公司 90% 以上的人工智能培训工作都使用这些芯片,即通过模型输入数据,使其在用类似人类的文字回覆查询或生成图像等任务中发挥作用。
谷歌的 TPU 现在已经是第四代了。谷歌周二发表一篇科学论文,详细介绍其如何利用自家定制开发的光学交换器将 4,000 多个芯片串联成一台超级计算机,以帮助连接各个机器。
改善这些连接已经成为建造人工智能超级计算机的公司之间竞争的一个关键点,因谷歌的 Bard 或 OpenAI 的 ChatGPT 等大型语言模型的技术规模已经爆炸性增长,意味着它们大到无法无法存储在单个芯片上。
这些模型的运算必须被分摊到数以千计的芯片中,然后这些芯片必须一起工作数周或更长时间来训练模型。谷歌的 PaLM 是迄今为止其公开披露的最大的语言模型,该模型训练工作是分摊到两台搭载 4,000 个芯片的超级计算机上进行,历时 50 天。
谷歌表示,其超级计算机可以很容易地在运行的同时重新配置芯片之间的连接,可帮助避免问题,并可进行调整以提高性能。
谷歌研究员 Norm Jouppi 和谷歌杰出工程师 David Patterson 在一篇关于该系统的博文中写道:“电路切换使我们很容易绕过故障的组件…这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。”
虽然谷歌现在才公布其超级计算机的细节,但其已从 2020 年起就在该公司位于奥克拉荷马州 Mayes 的一个数据中心上线。谷歌表示,初创公司 Midjourney 使用该系统来训练其模型,该系统在输入几句话的文本后会生成新的图像。
谷歌在论文中说,对于同等规模的系统,其芯片比基于 Nvidia A100 芯片的系统快 1.7 倍,省电 1.9 倍;第四代 TPU 问世时,同时在市场上的产品为 A100。
Nvidia 的一位发言人不予置评。
谷歌表示,没有将其第四代产品与 Nvidia 目前的旗舰产品 H100 芯片进行比较,因为 H100 是在谷歌的芯片之后上市的,而且是用更新的技术制造的。
谷歌暗示可能正在开发一种新的 TPU,与 Nvidia H100 竞争,但没有提供细节,Jouppi 告诉路透,谷歌的 “未来芯片有着稳健的规划”。(完)
*如欲参考原文报导,请点选 即可撷取浏览*
(编审 张明钧)