挑战英伟达,需要另辟蹊径

Wallstreetcn
2024.03.02 08:27
portai
I'm PortAI, I can summarize articles.

Groq 是近期 AI 芯片界的一个明星。3 月 2 日,据报道,Groq 收购了一家人工智能解决方案公司 Definitive Intelligence。Groq 是由前谷歌员工乔纳森·罗斯创立的,团队中成员有谷歌、亚马逊、苹果的前员工。Groq 开发了一款 LPU(语言处理单元)推理引擎,该引擎在 AI 市场上展现了快速的推理速度,比英伟达的 GPU 有显著提升。Groq 的挑战者主要从推理切入,AI 推理市场对英伟达来说非常重要。

Groq 是近期 AI 芯片界的一个明星。原因是其号称比英伟达的 GPU 更快。3 月 2 日,据报道,Groq 收购了一家人工智能解决方案公司 Definitive Intelligence。这是 Groq 在 2022 年收购高性能计算和人工智能基础设施解决方案公司 Maxeler Technologies 后的第二次收购。Groq 来势很凶。

自从 ChatGPT 爆火以来,英伟达凭借 GPU 在市场上独孤求败,虽然也出现了不少挑战者,但都没有像 Groq 这般引人注意。

成立于 2016 年的 Groq,其创始人是被称为 “TPU 之父” 的前谷歌员工乔纳森·罗斯,团队中成员不乏有谷歌、亚马逊、苹果的前员工。这帮人通过简单的设计开发了一款 LPU(语言处理单元)推理引擎。就是这个 LPU 芯片让 Groq 在 AI 市场上异军突起,引得大家刷屏。据悉,LPU 可在当今大火的 LLM(大语言模型)中展现出非常快速的推理速度,比 GPU 有显著提升。不要小看 AI 推理的市场,2023 年第四季度,英伟达有 4 成收入来源于此。因此,众多英伟达的挑战者是从推理切入的。

那么,它是如何做到速度快的?为何能够叫板英伟达?在芯片架构和技术路径上有哪些可圈可点之处?。。。。对于这款引发广泛关注的芯片,很多人也希望能够了解其背后究竟有哪些玄妙?近日,半导体行业观察有幸采访到了北京大学集成电路学院,长聘副教授孙广宇,孙教授为我们提供了一些专业见解,至于网上对 Groq 价格的各种推测,其比性能等估算更复杂,本文在此将不作过多探讨,而是侧重于技术层面的解析,以期为读者带来一些启发。

最快的推理速度?

我们处于一个快节奏的世界中,人们习惯于快速获取信息和满足需求。研究表明,当网站页面延迟 300 - 500 毫秒 (ms) 时,用户粘性会下降 20% 左右。这在 AI 的时代下更为明显。速度是大多数人工智能应用程序的首要任务。类似 ChatGPT 这样的大语言模型(LLM)和其他生成式人工智能应用具有改变市场和解决重大挑战的潜力,但前提是它们足够快,还要有质量,也就是结果要准确。

要想快,就要计算和处理数据的能力强大。据 Groq 的白皮书【Inference Speed Is the Key To Unleashing AI’s Potential】【1】指出,在衡量人工智能工作负载的速度时,需要考虑两个指标:

  • 输出 Tokens 吞吐量(tokens/s):即每秒返回的平均输出令牌数,这一指标对于需要高吞吐量的应用(如摘要和翻译)尤为重要,且便于跨不同模型和提供商进行比较。

  • 首个 Token 返回时间(TTFT):LLM 返回首个令牌所需的时间,对于需要低延迟的流式应用(如聊天机器人)尤其重要。

2)影响模型质量的两个最大因素是模型大小 (参数数量) 和序列长度 (输入查询的最大大小)。模型大小可以被认为是一个搜索空间:空间越大,效果越好。例如,70B 参数模型通常会比 7B 参数模型产生更好的答案。序列长度类似于上下文。更大的序列长度意味着更多的信息——更多的上下文——可以输入到模型中,从而导致更相关和相关的响应。

在 Anyscale 的 LLMPerf 排行榜上(这是一个针对大型语言模型(LLM)推理提供商的性能、可靠性和效率评估的基准测试),Groq LPU 在其首次公开基准测试中就取得了巨大成功。使用 Groq LPU 推理引擎运行的 Meta AI 的 Llama2 70B,在输出 tokens 吞吐量上,实现了平均 185 tokens/s 的结果,比其他基于云的推理提供商快了 3 到 18 倍。对于首个 Token 返回时间(TTFT),Groq 达到了 0.22 秒。所有 Llama 2 的计算都在 FP16 上完成。

输出 tokens 吞吐量(tokens/s)
首个 tokens 的返回时间

这是如何实现的呢?

挖掘深度学习应用处理过程中的 “确定性”

如今行业不少人的共识认为,英伟达的成功不仅仅归功于其 GPU 硬件,还在于其 CUDA 软件生态系统。CUDA 也被业界称为是其 “护城河”。那么,其他 AI 芯片玩家该如何与英伟达竞争?

孙教授表示,诚然,CUDA 为 GPU 开发者提供了一个高效的编程框架,方便编程人员快速实现各种算子。不过,仅靠编程框架并不能实现高性能的算子处理。因此,英伟达有大量的软件开发团队和算子优化团队,通过仔细优化底层代码并提供相应的计算库,提升深度学习等应用计算效率。由于 CUDA 有较好的生态,这部分开源社区也有相当大的贡献。

然而,CUDA 框架和 GPU 硬件架构的紧密耦合同时也带来了挑战,比如在 GPU 之间的数据交互通常需要通过全局内存(Global Memory),这可能导致大量的内存访问,从而影响性能。如果需要减少这类访存,需要利用 Kernel 的 Fusion 等技术。实际上,英伟达在 H100 里增加 SM-SM 的片上传输通路来实现 SM 间数据的复用、减少访存数量,但是这通常需要程序员手工完成,同样增加了性能优化的难度。另外,GPU 的整个软件栈最早并不是专为深度学习设计的,它在提供通用性的同时,也引入了不小的开销,这在学术界也有不少相关的研究。

因此,这就给 AI 芯片的新挑战者如 Groq,这提供了机会。例如 Groq 就是挖掘深度学习应用处理过程中的 “确定性” 来减少硬件开销、处理延时等。这也是 Groq 芯片的特色之处。

孙教授告诉笔者,实现这么一款芯片的挑战是多方面的。其中关键之一是如何实现软硬件方面协同设计与优化,极大的挖掘 “确定性” 实现系统层面的 Strong Scaling 。为了达到这个目标,Groq 设计了基于 “确定性调度” 的数据流架构,硬件上为了消除 “不确定性” 在计算、访存和互联架构上都进行了定制,并且把一些硬件上不好处理的问题通过特定的接口暴露给软件解决。软件上需要利用硬件的特性,结合上层应用做优化,还需要考虑易用性、兼容性和可扩展性等,这些需求都对配套工具链和系统层面提出很多新的挑战。如果完全依赖人工调优的工作是很大的,需要在编译器等工具层面实现更多的创新,这也是新兴的 AI 芯片公司(包括 Tenstorrent、Graphcore、Cerebras 等)面临的共同问题。

HBM 是唯一解?纯 SRAM 来挑战

LPU 推理引擎主要攻克 LLM 的两个瓶颈——计算量内存带宽。Groq LPU 能够与英伟达叫板,其纯 SRAM的方案起到了很大的作用。

简化的 LPU 架构

不同于英伟达 GPU 所使用的 HBM 方案,Groq 舍弃了传统的复杂储存器层级,将数据全部放置在片上 SRAM 中,利用 SRAM 的高带宽(单芯片 80TB/s),可以显著提升 LLM 推理中带宽受限的(Memory Bound)部分,比如 Decode Stage 计算和 KV cache 的访存。SRAM 本身是计算芯片必须的存储单元,GPU 和 CPU 等利用 SRAM 来搭建片上的高速缓存,在计算过程中尽可能减少较慢的 DRAM 访问。但由于单个芯片的 SRAM 容量有限,所以涉及到数百个芯片协同处理,这也涉及芯片间的互连设计,以及系统层面的算法部署等。

Groq 提到,由于没有外部内存带宽瓶颈,LPU 推理引擎提供了比图形处理器更好的数量级性能。

这种纯 SRAM 的架构在最近几年一直被学术界和工业界所讨论,比如华盛顿大学在文章【Chiplet Cloud: Building AI Supercomputers for Serving Large Generative Language Models】【2】中提到,与 DDR4 和 HBM2e 相比,SRAM 在带宽和读取能耗上具有数量级的优势,从而获得更好的 TCO/Token 设计,如下图所示。市面上,包括 Groq 以及其他公司如 Tenstorrent、Graphcore、Cerebras 和国内的平头哥半导体(含光 800)、后摩智能(H30)等,都在尝试通过增加片上 SRAM 的容量和片上互连的能力来提升数据交互的效率,从而在 AI 处理芯片领域寻求与英伟达不同的竞争优势。

与 DDR4 和 HBM2e 相比,SRAM 在带宽和读取能耗上具有数量级的优势,从而获得更好的 TCO/Token 设计(来源:【2】)

纯 SRAM 架构的优势在哪里?孙教授指出主要涵盖两方面:第一个方面是 SRAM 本身有着高带宽和低延迟优势,可以显著提升系统在处理访存受限算子的能力。另一方面,由于 SRAM 的读写相比 DRAM 具有确定性,纯 SRAM 的架构给软件提供了确定性调度的基础。编译器可以细粒度地排布计算和访存操作,最大化系统的性能。对于 GPU 来说,由于 HBM 访问延迟会有波动,Cache 层级的存在也提升了访存延迟的不确定性,增加了编译器做细粒度优化的难度。

众所周知,英伟达 GPU 所使用的 HBM 方案面临着成本高、散热、产能不足的难题。那么,这种纯 SRAM 架构又有哪些挑战呢?

孙教授分析到:“纯 SRAM 架构的挑战也很明显,主要来自于容量的限制。Groq 等芯片基本上都是在CNN时代进行的立项和设计,对于这个阶段的模型,单芯片百兆 SRAM 来作为存储是够用的。但是在大模型时代,由于模型大小通常可以达到上百 GB,而且 KV-Cache(一种关键数据结构)的存储也非常占用内存,单芯片 SRAM 的容量在大模型场景下显得捉襟见肘。”

他以 Groq 的方案为例来说,为了满足 70B 模型的推理需求,它集成了 576 个独立的芯片,而集成如此多的芯片,对芯片间、节点间互联的带宽和延迟要求也非常的高。576 芯片的集群只有 100GB 的 SRAM 容量。模型需要通过细粒度的流水线并行(PP)和张量并行(TP)的方式进行切分,来保证每个芯片分到的模型分块在 200MB 以内。细粒度切分的代价是芯片间通信的数据量和开销显著上升,虽然 Groq 在互联方面也进行了定制优化来降低延迟,但是通过简单估算可以发现,目前芯片间数据传输同样可能成为性能瓶颈。”

另一方面,由于容量的限制,其留给推理时的激活值的存储空间十分受限。特别是目前 LLM 推理需要保存 KV-Cache,这是随着输入输出长度线性增长的数据。通常对于 70B 模型,即使用了特殊技术进行 KV-Cache 压缩(GQA),32K 的上下文长度需要为每个请求保留 10GB 左右的 KV-Cache,这意味着在 32K 场景下同时处理的请求数最大仅为 3。对于 Groq 来说,由于依赖流水线并行(TP),需要至少流水线级数这么多的请求来保证系统有较高利用率,较低的并发数会显著降低系统的资源利用率。所以,如果未来长上下文(Long-Context)的应用场景,在 100K 甚至更长的上下文下,纯 SRAM 架构能支持的并发数会非常受限。换一个角度看,对于边缘场景,如果采用更激进的 MQA、更低的量化比特,可能会使 SRAM 架构更为适用。

如果 Groq 这类芯片确实能够找到合适的应用场景,应该会让算法从业者更积极挖掘模型压缩、KV-Cache 压缩等算法,来缓解纯 SRAM 架构的容量瓶颈。一些对推理延迟有强需求的算法和应用,如 AutoGPT, 各种 Agent 算法等,整个算法流程需要链式处理推理请求的,会更有可能做到实时处理,满足人与真实世界交互的需求。

因此,在孙教授看来,采用纯 SRAM 还是 HBM 与未来模型发展和应用的场景非常相关。对于数据中心这类采用较大的 batch 数、较长的 sequence length、追求吞吐的场景,HBM 这类大容量存储应该更加合适。对于机器人、自动驾驶等边缘侧,batch 通常为 1,sequence length 有限,追求延时的场景,尤其考虑到模型有机会继续压缩,纯 SRAM 的场景应该有更大的机会。另外,还可以同时期待一些新的存储介质的发展,能否将片上存储容量从百 MB 突破到 GB 的规模。

应对 “存储墙” 挑战:芯片架构创新势在必行

实际上,除了前述的纯 SRAM 解决方案外,为了应对当前冯诺依曼架构面临的 “存储墙” 问题,业界正在探索多种新型架构,包括存算一体和近存计算等。这些探索涵盖了基于传统的 SRAM、DRAM 以及新兴的非易失性存储技术,如 RRAM、STTRAM 等,都有广泛的研究正在进行中。在处理大型模型的场景中,也有相关的创新尝试,例如三星、海力士等企业正积极研发的 DRAM 近存计算架构,可以很好的在带宽和容量之间提供权衡,对于访存密集 KV cache 和小 batch 的 Decode 处理部分也提供了不错的机会。(对这部分有兴趣,可以参考 “Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models”【3】这篇文章关于 KV cache 的处理,孙教授团队比较关注的研究方向。)

另外,从更广义的角度分析,无论采用哪种存储介质、无论采用存算还是近存架构,其本质目的和 Groq 出发点是类似的,都是挖掘存储架构的内部高带宽来缓解访存瓶颈。如果同时考虑大容量的需求,都需要将存储分块,然后在存储阵列附近(近存)或阵列内(存内)配备一定的算力单元。当这种分块的数量达到一定数量,甚至会突破单个芯片的边界,就需要考虑芯片间的互连等问题。对于这类计算和存储从集中式走向分布式的架构,孙教授团队在研究时也习惯称为空间型计算(Spatial Computing)架构。简言之,每个计算或者存储单元的位置都对它承担的任务有影响。一方面,在芯片层面,这种分布式计算架构和 GPU 提供抽象是不同的;另一方面,当规模扩大到多芯片/多卡这个级别,面临的问题又是类似的。

总之,大模型确实给传统的芯片架构带来了极大的挑战,迫使芯片从业者发挥主观能动性,通过 “另辟蹊径” 的方式来寻求突破。值得关注的是,国内也已经有一批架构创新型的芯片企业,陆续推出了存算一体或近存计算的产品,例如、知存科技、后摩智能、灵汐科技等。

考虑到芯片的研发周期通常长达数年,孙教授认为在尝试新技术的时候需要对未来的应用(如 LLM 技术)的发展趋势有一个合理的预判。分析好应用的发展趋势,通过软硬件的设计预留一定的灵活性和通用性,更能够保证技术长期适用性。

【1】《Inference Speed Is the Key To Unleashing AI’s Potential》,Groq

附孙教授所提及的论文地址:

【2】Chiplet Cloud: Building AI Supercomputers for Serving Large Generative Language Models(https://arxiv.org/pdf/2307.02666.pdf)

【3】Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models(https://ieeexplore.ieee.org/abstract/document/10218731)

本文作者:杜芹 DQ,来源:半导体行业观察,原文标题:《挑战英伟达,需要另辟蹊径》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。