Meta 发力 AI:官宣训练和推理芯片项目,首款定制 AI 芯片超低功耗
Meta 将这款 AI 芯片称为 MTIA,它的功耗仅 25 瓦,号称比竞品芯片更有效处理中低复杂度的 AI 模型,目前重点放在 Meta 应用的推理、不是训练。Meta 未透露配置 MTIA 的时间表,称 MTIA 是加快 AI 训练和推理的芯片 “家族” 成员之一。
继利用人工智能(AI)提升广告效果后,Meta 又在芯片上发力。
美东时间 5 月 18 日 Meta 披露了旗下数据中心项目支持 AI 工作的细节,提到已经打造一款定制芯片,简称 MTIA,用于加快生成式 AI 模型的训练。这是 Meta 首次推出 AI 定制芯片。Meta 称,MTIA 是加快 AI 训练和推理工作负载的芯片 “家族” 的一分子。
MTIA 全称为 Meta 训练和推理加速器。所谓推理是指运行经过训练的模型。MTIA 是一种 ASIC,也就是将不同电路集成在一块板上的芯片,可以将它进行编程,执行一项或多项任务。
Meta 介绍,MTIA 采用开源芯片架构 RISC-V,它的功耗仅有 25 瓦,远低于英伟达等主流芯片厂商的产品功耗。
Meta 称,2020 年设计了第一代 MTIA 芯片,采用 7 纳米工艺,那是同名 MTIA 项目的部分工作。打造第一代芯片的目的是提高推荐模型的效率,那些模型服务于广告和其他新闻推送内容。一代 MTIA 可以将内部 128MB 的内存扩展到高达 128GB。在 Meta 设计的基准测试中,它处理了低等和中等复杂度的 AI 模型,效率比 GPU 高。
Meta 的软件工程师 Joel Cohurn 介绍新芯片时称,Meta 最初用图形处理单元(GPU)执行推理任务,发现 GPU 不太适合这种工作。用 GPU 固然可以大幅优化软件,但对真实模型的效率很低,现实配置时难度大、成本高。所以 Meta 需要 MTIA。
Meta 承认,MTIA 芯片在处理高复杂度 AI 模型时遇到了问题,但指出,它比竞品芯片能更有效地处理中低复杂度的模型。
Meta 表示,芯片在内存和网络领域的工作还未完成,随着 AI 模型发展,这些工作会出现瓶颈。目前,MTIA 的重点放在 Meta 应用家族的推理,而不是训练。不过 Meta 强调,MTIA“大大” 提高了单位瓦特的推荐负载运行效率,让公司能运行加强版的、更尖端的 AI 工作负载。
Meta 本周四并未披露配置新芯片的时间表,也未说明具体有什么计划开发可能训练模型的芯片。
Meta 同时介绍,计划针对以 AI 为核心的网络和冷却系统,重新设计其数据中心,今年内,首个相关数据中心的设施将破土动工。Meta 的员工演示时称,新设计的成本将降低 31%,而且建造速度是公司目前数据中心的两倍。
Meta 还介绍了旗下的一种 AI 驱动系统,它可帮助 Meta 的工程师编写电脑代码。Meta 的 AI 助力代码工具名为 CodeCompose,目前没有对外公开。公司团队内部用它获取 Python 和其他语言的代码建议。
今年 ChatGPT 掀起 AI 的热潮后,Meta 正在努力追赶其他硅谷巨头加速开发 AI 功能的脚步。
2 月 Meta 推出针对研究社区的大型语言模型 LLaMA ,不同于 ChatGPT 和必应这类聊天机器人,它是开源的 “研究工具”,可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。当月有报道称,Meta 将 AI 率先用于广告功能,推出名为 Advantage+ 的广告产品,针对不同的用户,让 AI 根据算法自动生成广告。
上月初传出 Meta年底前推出 AI 广告工具的消息。Meta 首席技术官 Andrew Bosworth 当时说,Meta 将推出生成广告图像的 AI 工具,帮助公司针对不同的受众制作不同的图像。
上月末 Meta 公布了优于预期的一季度业绩,并承诺要对火爆的 AI 领域加大押注。Meta 的 CEO 扎克伯格评价一季度业绩时称,AI 推动 App 和业务取得良好成果,还在业绩电话会上说,对 AI 和元宇宙要两手抓。
在 Meta 本周四官宣之前,其他科技巨头已有定制 AI 芯片的动作。
谷歌用简称 TPU 的处理器训练 PaLM-2 等旗下大型生成式 AI 系统。亚马逊为云服务 AWS 的客户提供训练和推理的专属芯片。上月媒体称,微软在与 AMD 合作开发名为 Athena 的自有 AI 芯片。