英伟达封神:潜在对手已现
ChatGPT 算力芯片:螳螂捕蝉,黄雀在后。
ChatGPT 的出现,不但让 AI 有了比较明确的商业化方向,也在快速改变服务器产业格局。
传统基于 x86 架构的 CPU 芯片,在服务器领域的统治地位,已岌岌可危。
美国证券半导体分析师在最近发布的一份报告中提到,由于 ChatGPT 对云计算以及 IDC 的 AI 算力需求激增,很可能导致商业模式选择将资源转向 AI 加速器芯片,比如 NVIDIA(英伟达)的 GPU(图形处理单元)和 Broadcom/Marvel 的 AI 定制 IC(用于 AI 推理)。
因此,传统 x86 架构的、主要由 Intel/AMD 提供的服务器 CPU,到 2025 年,可能不再是服务器的主要芯片。
同时,更重要的事情发生了:尽管英伟达的 GPU 产品如今在支撑 ChatGPT 的算力需求时,风头无俩,但挑战者(或称分羹者)却已出现。
正所谓:螳螂捕蝉,黄雀在后。这只黄雀,是何方神圣?
英伟达:超越 x86 架构芯片
Vivek Arya,这位半导体分析师在报告中认为,基于传统 x86 架构的服务器 CPU 芯片商,比如 Intel 或 AMD,正在遇到 NVIDIA 这个 AI 领域领头羊公司的强力挑战。
GPU 是英伟达的主要产品,其营收占总收入的 80%+。GPU 通常作为插入 PC 主板的卡出现,也有些 SoC 芯片设计商,将 GPU 作为 SoC 芯片的一个模块,整合在系统级芯片中成为一个整体(比如高通骁龙 8Gen 2)。
英伟达的 GPU 芯片,主要作用是为 AMD 或英特尔等公司制造的中央处理器(CPU)增加计算能力。
Vivek Arya 在报告中估计,2023 年至 2025 年,AI 加速器芯片的销售额将超过 400 亿美元(相比 2022 年复合年均增长率达 37%)。于此对应,x86 CPU 复合年均增长率仅 3%,销售规模也仅为 260 亿美元。
在 ChatGPT 出现前,英伟达 GPU 主要在计算机图形学领域称王。在 PC 游戏玩家群体中,英伟达是神一样的存在。
英伟达在 GPU 领域的主导地位,并非始于今日。1999 年,英伟达通过 GeForce 256 进入图形处理市场。20 多年后的 2022 年,游戏业务带给英伟达超过 90 亿美元的营收。
2022 年 12 月,OpenAI 发布 ChatGPT。由于 ChatGPT 对算力的极度渴求,相当于给算力爆棚的英伟达安装了一组营收动力引擎。算力构成了 AI 商业繁荣的基础。Vivek Arya 说,“使用英伟达的 GPU,去增加更多的计算能力非常容易。现在,计算能力相当于硅谷的货币。”
作为支撑 ChatGPT 背后大型语言模型(LLM)底层动力引擎,英伟达由于在 AI 方面的敏锐洞察力、早期投资和坚定不移的坚持投入,因而获得了顶级回报。
3 月 20 日-23 日,在英伟达举行的年度 GTC 开发者大会上,AI 成为主要与会者讨论的主要焦点。英伟达首席执行官黄仁勋在被问及 “提前 20 年布局 AI,到底是运气还是有先见之明” 时,黄仁勋回答了这么一句:“我们只是相信总有一天会发生新的事情,其余的一切都需要一些偶然性”。
如今 AI 芯片组云市场主要分为三个部分:公共云由云服务提供商托管:AWS、微软、谷歌、阿里巴巴、百度和腾讯等;其次是企业数据中心,性质是私有云和混合云,即结合公共云和私有云(VMware、Rackspace、NetApp、HPE 和 DELL)的产品。
除了公共云、私有云和混合云,ABI Research 首席分析师苏连杰认为,还有电信云,即电信公司为其核心网络、IT 和边缘计算工作负载部署的云基础设施。
英伟达的 GPU 在云端训练方面的主导地位无可撼动。但与此同时,从 2020 年起,ASIC(专用定制芯片)在 AI 推理领域也出现强劲增长。
苏连杰说,一些云服务提供商(CSP)认为,推理工作量的规模并不小于训练工作量。ASIC 是 AI 加速器芯片中用于推理的部分,另一部分即用于训练的 GPU。
事实上,即使是在 2022 年 12 月 OpenAI 发布的 ChatGPT 3.5 版本中,也确实出现了 ChatGPT 能根据用户 “投喂” 问题素材的上下文,做出合乎人类逻辑的精确推理。ChatGPT 4.0 版本,推理能力更强。
挑战者谷歌的 TPU 技术特征
如果看 AI 定制芯片具备的推理能力,实际上可以发现,英伟达并非缺乏潜在挑战者。
从技术上看,谷歌的 TPU(张量处理单元)能同时处理 “云上” 训练和推理,而非英伟达 GPU 大部分被用于训练,而 ASIC 又主要用于推理。因此,谷歌的 TPU 被视为 CPU 和 GPU 技术的有力挑战者。
苏连杰认为,谷歌在 TPU 方面的展示的 AI 技术能力,正为云服务提供商开发属于自己的 AI 加速器 ASIC 提供了方向和技术路径。华为、AWS(亚马逊)和百度已经这样做了。
就像英伟达很早就布局 AI 算力那样,谷歌做 TPU 同样很早。
2006 年,谷歌考虑为神经网络构建专用集成电路(即 ASIC),到 2013 年,谷歌意识到神经网络(NPU)快速增长的计算需求,对 ASIC 的需求量很可能会翻番。2015 年,谷歌将 TPU 部署到服务器中,并快速迭代。
谷歌 TPU 如今已迭代到 V4.0 版。据谷歌 4 月 6 日披露,得益于互连技术和领域特定加速器(DSA)方面的关键创新,谷歌云 TPU v4 在扩展 ML(机器学习:Machine Learning)系统性能方面比其前代版本有了近 10 倍的飞跃。
TPU v4 是谷歌于 2021 年推出的、专门用于执行机器学习(ML)的 AI 芯片,是谷歌第 5 代特殊领域加速器(DSA:Domain Specific Accelerator)及第 3 代用于 ML 模型的超级计算机平台。
与英伟达的当红辣子鸡 A100 相比,TPU v4 速度快 1.2-1.7 倍,功耗低 1.3-1.9 倍。
基于这款芯片,谷歌研发了一台拥有 4096 颗 TPU V4 的超级计算机。这也是第一个部署可配置 OCS(光电路开关)的超级计算机平台。
OCS 可动态配置互联拓扑,以提升扩展性、可用性、利用率、模块化、安全、性能及用电效率。和 Infiniband 相比,OCS 及其底层光纤组件,系统成本不到 5%。
与 Infiniband(IB:无线带宽)相比,OCS 和底层光学组件更便宜、功耗更低且速度更快,无需光到电到光的转换或耗电的网络分组交换机,从而节省了电力。TPU v4 芯片用电率仅 200w,二氧化碳排放比一般本地部署的数据中心减少 20 倍,是执行大型语言模型的理想平台。
TPU v4 超级计算机的每颗 TPU v4 包含 SparseCores,这是一种更接近高带宽内存的中间芯片或资料流处理器,许多 AI 运算都发生在该芯片中,可使深度学习模型嵌入(Embeddings)执行速度提升 5-7 倍,裸晶(die)面积仅 5%。
借由 Sparsecores,搭载 TPU v4 的系统可用于执行搜索、广告、YouTube 和 Google Play 的 AI 内容推荐。
更令英伟达感受到威胁的是,谷歌宣布,提供 AI 文本生成图片服务的 AI 创业公司 Midjourney 已利用 Google Cloud TPUv4 来训练其第 4 版模型。
就像英伟达的 GPU 在 AI 大模型做集群训练时,注重生态体系构建一样,谷歌也算法 - 芯片协同方面做巨额投入。
如今,半导体硬件的技术迭代已接近摩尔定律的极限,未来 AI 芯片性能要百尺竿头更进一步,就硬件层面的提升空间越来越小。算法和芯片的协同设计将取而代之,成为行业主流;搭建软硬件生态体系和推动行业共建,将在未来成为半导体技术和应用的主要方向。