
Track Hyper | Google's Attempt to Shake NVIDIA's Empire

路线,与众不同。
英伟达在生成式 AI 领域越来越具有统治力,但对手仍前赴后继,持续挑战英伟达正在快速形成的 AI 芯片帝国。
最近,谷歌在 2023 谷歌大会上发布最新一代生成式 AI 芯片 “谷歌 Cloud TPU v5e”。这是一款专为重大模型而生的 AI 加速器。
与前代产品 Cloud TPU v4 相比,就成本而言降低了 50%,就是在每块美元的花费中,TPU v5e 提供高达 2 倍的训练性能和 2.5 倍的推理性能。
但英伟达的 AGI 芯片霸权很难瞬间被动摇,因此谷歌的目标与英伟达不同:谷歌正在试图创建一整套 AGI 生态开发体系,这是远比英伟达的 AI 芯片霸权更具野心的市场定位。
谷歌能成功吗?
TPU v5e:专为生成式 AI 而生
谷歌在 8 月 30 日举办的 Google Cloud Next 2023 大会上,宣布了整套产品更新信息。其中,谷歌推出的 AI 加速器 Cloud TPU v5e 被认为是业界向英伟达 AI 芯片霸权发起的最新一轮冲锋。比谷歌稍早的是 8 月 28 日 IBM 推出的模拟人脑的 AI 芯片。
TPU,英文全称 “Tensor Processing Unit”,简称张量处理器,是谷歌为机器学习(ML)定制的专用芯片(ASIC),专为谷歌的深度学习框架 TensorFlow 设计。
所谓 ASIC,即专用芯片(Application-Specific Integrated Circuit),是指依产品需求不同而定制的特殊规格芯片;与此对应,非定制芯片则是应用特定标准产品的芯片。
与图形处理器(GPU)相比,TPU 采用低精度(8 位)计算,以降低每步操作使用的晶体管数量。
降低精度对深度学习的准确度影响很小,但却可以大幅降低功耗、加快运算速度。同时,TPU 使用了脉动阵列的设计,用来优化矩阵乘法与卷积运算,减少 I/O 操作。此外,TPU 还采用了更大的片上内存,以此减少对 DRAM 的访问,从而更大程度地提升性能。
2016 年,谷歌在其 I/O 年会上,首次公布 TPU。同年推出首代 TPU,2021 年发布第四代 TPU,2022 年提供给开发者。
云 TPU(Cloud TPU)是一项谷歌云服务,适合训练需要做的海量矩阵计算的大型复杂深度学习模型,例如大语言模型、蛋白质折叠建模和药物研发等,帮助企业在实现 AI 工作负载时,节省资金和时间。
时至今日,像谷歌这样的技术公司,推出 AI 芯片,必然不会忽视 LLM 推理与训练的应用需求。Cloud TPU v5e 正是如此。
但是,这款 AI 加速器尽管也是为专用于训练与推理所需的成本效益和性能而设计,但其训练规模却非超大型,而是中大型。
Cloud TPU v5e 的技术路线,看上去有点像中国小米公司最初的品牌定位:强调性价比。这款最新 AI 加速器与其前代产品 Cloud TPU v4 相比,开发侧重是效率优先,成本下降 50%,但训练性能提升 2 倍,推理能力提升 2.5 倍。
因此,Cloud TPU v5e 被谷歌称为 “超级计算机”,平衡了性能、灵活性和效率,允许多达 256 个芯片互连,聚合带宽超过 400 Tb/s 和 100 petaOps 的 INT8 性能;此外还支持八种不同的虚拟机(VM)配置,单片内的芯片数量从一个到 250 多个不等。
其中,性能方面,有一组数据可供参考:据速度基准测试,通过 Cloud TPU v5e,训练和运行人工智能模型的速度提高了 5 倍;1 秒内,能实时处理 1000 秒的内部语音到文本和情感预测模型,比之前提升 6 倍。
谷歌表示,“我们正处于计算领域千载难逢的拐点。设计和构建计算基础设施的传统方法不再足以满足生成式人工智能和 LLM 等工作负载呈指数级增长的需求。过去五年,LLM 的参数数量每年增加 10 倍。因此,客户需要具有成本效益且可扩展的人工智能优化基础设施”。
通过提供 AI 新基础设施技术、TPU 和 GPU,谷歌 Cloud 正在努力满足开发者的需求。这种努力,包括两个方面,除了 Cloud TPU v5e(目前已提供预览版),还包括将之与谷歌 Kubernetes Engine(GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等框架的集成,以此提升开发者的使用效率。
鉴于 Cloud TPU v5e 专为中大型模型设计,那么对于超大型模型,谷歌也准备了新产品:基于英伟达 H100 GPU 的超级计算机 “谷歌 A3 VM”,将于 9 月全面上市。这是专为大规模 AI 模型提供支持的超级 AI 平台。
路线:构建开发生态平台
除了超强的性能和令人心动的成本效益,谷歌 Cloud TPU v5e 的易用性也异常凸显。
开发者(也可能是商业或研究机构)能通过 Google Kubernetes Engine(GKE)来管理基于 Cloud TPU v5e 的中大规模 AI 工作负载编排,进而提升 AI 开发效率。这对于喜欢简单托管服务的商业或研究机构而言,Vertex AI 现在支持使用 Cloud TPU 虚拟机用以训练不同的框架和库。
GKE 是谷歌 Cloud 平台上的一项托管式容器编排服务,而 Kubernetes 则是一种开源的容器编排平台,这是能帮助机构的技术人员管理和调度容器化的应用程序。GKE 简化了技术使用方在谷歌云上部署、管理和扩展容器化应用程序的过程。
通过 GKE 提供的一整套功能强悍的工具和服务,开发者能轻而易举地创建和管理 Kubernetes 集群。通过 GKE,技术开发者或机构技术方能快速启动和停止 Kubernetes 集群,自动做节点管理和扩展,以及监控和调试应用程序。GKE 还提供了高度可靠的基础设施和自动化的操作,使技术方能专注于应用程序的开发和部署,而无需担心底层的基础设施细节。
Cloud TPU v5e 易用性的基础,实际上折射出谷歌在生成式 AI 领域采取了与英伟达不同的路线。
这条路线的最终指向,是要建立成体系的生成式 AI 开发者生态。
Cloud TPU v5e 为谷歌 AI 框架(如 JAX、PyTorch 和 TensorFlow)提供内置支持,同时也可将之与谷歌 AI 开发者平台 Vertex AI 集成。
Vertex AI 是谷歌 Cloud 在 2021 年 5 月发布的机器学习(ML)平台,主要用以训练和部署 ML 模型和 AI 应用,也可用于自定义 LLM。
Vertex AI 结合了数据工程、数据科学和 ML 等工作流,技术开发团队因之可使用通用工具集用于协作;通过谷歌 Cloud 的优势扩缩应用,并提供 AutoML、自定义训练、模型发现和生成式 AI 等选项,以端到端 MLOps 工具实现自动化部署和扩展。
这个 AI 开发平台能支持多种界面,包括 SDK、控制台、命令行和 Terraform。VertexAI 扩展是一组完全托管的扩展开发人员工具,能实现从模型到 API 的实时数据流动和实际操作。
据谷歌透露,对于希望快速开始常见生成式人工智能(AI)用途(如聊天机器人和定制搜索引擎)的开发人员,Vertex AI 搜索和对话能帮助没有任何 AI 经验的开发者快速上手。在许多情况下,有了 Vertex AI 平台,开发者也无需编写任何代码。
实际上,Vertex AI 开发者平台是谷歌竞逐生成式 AI 的利器。谷歌也有意将 Vertex AI 构建成一个庞大的 AI 开发生态圈。在这个生态体系中,谷歌将软件硬件全部推向性能越来越强的顶端。在此基础上,还集成了开发 AI 的一站式服务。
这是一条与 AGI 芯片霸主英伟达不一样的道路,英伟达走为 AGI 提供工具的路线,而生态体系式的平台,才能与行业捆绑并行,进而有可能与英伟达帝国分庭抗礼。
