<p>Groq 是近期 AI 芯片界的一个明星。原因是其号称比英伟达的 GPU 更快。3 月 2 日，据报道，Groq 收购了一家人工智能解决方案公司 Definitive Intelligence。这是 Groq 在 2022 年收购高性能计算和人工智能基础设施解决方案公司 Maxeler Technologies 后的第二次收购。Groq 来势很凶。</p>
<p>自从 ChatGPT 爆火以来，英伟达凭借 GPU 在市场上独孤求败，虽然也出现了不少挑战者，但都没有像 Groq 这般引人注意。</p>
<p>成立于 2016 年的 Groq，其创始人是被称为 “TPU 之父” 的前谷歌员工乔纳森·罗斯，团队中成员不乏有谷歌、亚马逊、苹果的前员工。这帮人通过简单的设计开发了一款 LPU（语言处理单元）推理引擎。就是这个 LPU 芯片让 Groq 在 AI 市场上异军突起，引得大家刷屏。据悉，LPU 可在当今大火的 LLM（大语言模型）中展现出非常快速的推理速度，比 GPU 有显著提升。不要小看 AI 推理的市场，2023 年第四季度，英伟达有 4 成收入来源于此。因此，众多英伟达的挑战者是从推理切入的。</p>
<p><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/988f4deb-082a-4cfc-869a-575a0aa90870.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="640" height="165" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/988f4deb-082a-4cfc-869a-575a0aa90870.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw"/></p>
<p>那么，它是如何做到速度快的？为何能够叫板英伟达？在芯片架构和技术路径上有哪些可圈可点之处？。。。。对于这款引发广泛关注的芯片，很多人也希望能够了解其背后究竟有哪些玄妙？近日，半导体行业观察有幸<span class="wscn-sensitive">采访</span>到了<strong>北京大学集成电路学院，长聘副教授孙广宇</strong>，孙教授为我们提供了一些专业见解，至于网上对 Groq 价格的各种推测，其比性能等估算更复杂，本文在此将不作过多探讨，而是侧重于技术层面的解析，以期为读者带来一些启发。</p>
<section>
<section>
<section>
<section>
<h2><strong>最快的推理速度？</strong></h2>
</section>
</section>
</section>
</section>
<section>
<p>我们处于一个快节奏的世界中，人们习惯于快速获取信息和满足需求。研究表明，当网站页面延迟 300 - 500 毫秒 (ms) 时，用户粘性会下降 20% 左右。这在 AI 的时代下更为明显。速度是大多数人工智能应用程序的首要任务。类似 ChatGPT 这样的大语言模型（LLM）和其他生成式人工智能应用具有改变市场和解决重大挑战的潜力，但前提是它们足够快，还要有质量，也就是结果要准确。</p>
<p>要想快，就要计算和处理数据的能力强大。据 Groq 的白皮书【Inference Speed Is the Key To Unleashing AI’s Potential】<em>【1】</em>指出，在衡量人工智能工作负载的速度时，需要考虑两个指标：</p>
</section>
<section>
<ul>
<li>
<p><strong>输出 Tokens 吞吐量（tokens/s）</strong>：即每秒返回的平均输出令牌数，这一指标对于需要高吞吐量的应用（如摘要和翻译）尤为重要，且便于跨不同模型和提供商进行比较。</p>
</li>
<li>
<p><strong>首个 Token 返回时间（TTFT）</strong>：LLM 返回首个令牌所需的时间，对于需要低延迟的流式应用（如聊天机器人）尤其重要。</p>
</li>
</ul>
</section>
<p>2）影响模型质量的两个最大因素是模型大小 (参数数量) 和序列长度 (输入查询的最大大小)。模型大小可以被认为是一个搜索空间：空间越大，效果越好。例如，70B 参数模型通常会比 7B 参数模型产生更好的答案。序列长度类似于上下文。更大的序列长度意味着更多的信息——更多的上下文——可以输入到模型中，从而导致更相关和相关的响应。</p>
<p>在 Anyscale 的 LLMPerf 排行榜上（这是一个针对大型语言模型（LLM）推理提供商的性能、可靠性和效率评估的基准测试），Groq LPU 在其首次公开基准测试中就取得了巨大成功。使用 Groq LPU 推理引擎运行的 Meta AI 的 Llama2 70B，在输出 tokens 吞吐量上，实现了平均 185 tokens/s 的结果，<strong>比其他基于云的推理提供商快了 3 到 18 倍</strong>。对于首个 Token 返回时间（TTFT），Groq 达到了 0.22 秒。所有 Llama 2 的计算都在 FP16 上完成。</p>
<figure><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/34e3bec9-bb07-4efb-87fa-edb38b92e13a.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="640" height="418" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/34e3bec9-bb07-4efb-87fa-edb38b92e13a.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw"/>
<figcaption>输出 tokens 吞吐量（tokens/s）</figcaption>
</figure>
<figure><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c0b72b3a-7604-4dd9-acca-81df07c32296.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="640" height="423" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c0b72b3a-7604-4dd9-acca-81df07c32296.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw"/>
<figcaption>首个 tokens 的返回时间</figcaption>
</figure>
<p>这是如何实现的呢？</p>
<section>
<section>
<section>
<section>
<h2><strong>挖掘深度学习应用处理过程中的 “确定性”</strong></h2>
</section>
</section>
</section>
</section>
<section>
<p>如今行业不少人的共识认为，英伟达的成功不仅仅归功于其 GPU 硬件，还在于其 CUDA 软件生态系统。CUDA 也被业界称为是其 “护城河”。那么，其他 AI 芯片玩家该如何与英伟达竞争？</p>
<p>孙教授表示，诚然，CUDA 为 GPU 开发者提供了一个高效的编程框架，方便编程人员快速实现各种算子。不过，仅靠编程框架并不能实现高性能的算子处理。因此，英伟达有大量的软件开发团队和算子优化团队，通过仔细优化底层代码并提供相应的计算库，提升深度学习等应用计算效率。由于 CUDA 有较好的生态，这部分开源社区也有相当大的贡献。</p>
<p>然而，CUDA 框架和 GPU 硬件架构的紧密耦合同时也带来了挑战，比如在 GPU 之间的数据交互通常需要通过全局内存（Global Memory），这可能导致大量的内存访问，从而影响性能。如果需要减少这类访存，需要利用 Kernel 的 Fusion 等技术。实际上，英伟达在 H100 里增加 SM-SM 的片上传输通路来实现 SM 间数据的复用、减少访存数量，但是这通常需要程序员手工完成，同样增加了性能优化的难度。另外，GPU 的整个软件栈最早并不是专为深度学习设计的，它在提供通用性的同时，也引入了不小的开销，这在学术界也有不少相关的研究。</p>
<p>因此，这就给 AI 芯片的新挑战者如 Groq，这提供了机会。例如 Groq 就是<strong>挖掘深度学习应用处理过程中的 “确定性” 来减少硬件开销、处理延时等</strong>。这也是 Groq 芯片的特色之处。</p>
<p>孙教授告诉笔者，实现这么一款芯片的挑战是多方面的。其中关键之一是如何实现软硬件方面协同设计与优化，极大的挖掘 “确定性” 实现系统层面的 Strong Scaling 。为了达到这个目标，Groq 设计了基于 “确定性调度” 的数据流架构，硬件上为了消除 “不确定性” 在计算、访存和互联架构上都进行了定制，并且把一些硬件上不好处理的问题通过特定的接口暴露给软件解决。软件上需要利用硬件的特性，结合上层应用做优化，还需要考虑易用性、兼容性和可扩展性等，这些需求都对配套工具链和系统层面提出很多新的挑战。如果完全依赖人工调优的工作是很大的，需要在编译器等工具层面实现更多的创新，这也是新兴的 AI 芯片公司（包括 Tenstorrent、Graphcore、Cerebras 等）面临的共同问题。</p>
</section>
<section>
<section>
<section>
<section>
<h2><strong>HBM 是唯一解？纯 SRAM 来挑战</strong></h2>
</section>
</section>
</section>
</section>
<p>LPU 推理引擎主要攻克 LLM 的两个瓶颈——<strong>计算量</strong>和<strong>内存带宽</strong>。Groq LPU 能够与英伟达叫板，其<strong>纯 SRAM</strong>的方案起到了很大的作用。</p>
<figure><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8bca1198-c74e-4b78-97fe-0e81b921019b.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="430" height="482" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8bca1198-c74e-4b78-97fe-0e81b921019b.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw"/>
<figcaption>简化的 LPU 架构</figcaption>
</figure>
<p>不同于英伟达 GPU 所使用的 HBM 方案，Groq 舍弃了传统的复杂储存器层级，将数据全部放置在片上 SRAM 中，利用 SRAM 的高带宽（单芯片 80TB/s），可以显著提升 LLM 推理中带宽受限的（Memory Bound）部分，比如 Decode Stage 计算和 KV cache 的访存。SRAM 本身是计算芯片必须的存储单元，GPU 和 CPU 等利用 SRAM 来搭建片上的高速缓存，在计算过程中尽可能减少较慢的 DRAM 访问。但由于单个芯片的 SRAM 容量有限，所以涉及到数百个芯片协同处理，这也涉及芯片间的互连设计，以及系统层面的算法部署等。</p>
<p>Groq 提到，由于没有外部内存带宽瓶颈，LPU 推理引擎提供了比图形处理器更好的数量级性能。</p>
<p>这种纯 SRAM 的架构在最近几年一直被学术界和工业界所讨论，比如华盛顿大学在文章【Chiplet Cloud: Building AI Supercomputers for Serving Large Generative Language Models】<em>【2】</em>中提到，与 DDR4 和 HBM2e 相比，SRAM 在带宽和读取能耗上具有数量级的优势，从而获得更好的 TCO/Token 设计，如下图所示。市面上，包括 Groq 以及其他公司如 Tenstorrent、Graphcore、Cerebras 和国内的平头哥半导体（含光 800）、后摩智能（H30）等，都在尝试通过增加片上 SRAM 的容量和片上互连的能力来提升数据交互的效率，从而在 AI 处理芯片领域寻求与英伟达不同的竞争优势。</p>
<figure><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0c4f796e-c5eb-43c2-8b01-e037d4faec66.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="640" height="373" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0c4f796e-c5eb-43c2-8b01-e037d4faec66.png/query-aW1hZ2VWaWV3Mi8yL3cvNjQw"/>
<figcaption>与 DDR4 和 HBM2e 相比，SRAM 在带宽和读取能耗上具有数量级的优势，从而获得更好的 TCO/Token 设计（来源：【2】）</figcaption>
</figure>
<p>纯 SRAM 架构的<strong>优势</strong>在哪里？孙教授指出主要涵盖两方面：第一个方面是 SRAM 本身有着高带宽和低延迟优势，可以显著提升系统在处理访存受限算子的能力。另一方面，由于 SRAM 的读写相比 DRAM 具有确定性，纯 SRAM 的架构给软件提供了确定性调度的基础。编译器可以细粒度地排布计算和访存操作，最大化系统的性能。对于 GPU 来说，由于 HBM 访问延迟会有波动，Cache 层级的存在也提升了访存延迟的不确定性，增加了编译器做细粒度优化的难度。</p>
<p>众所周知，英伟达 GPU 所使用的 HBM 方案面临着成本高、散热、产能不足的难题。那么，这种纯 SRAM 架构又有哪些挑战呢？</p>
<p>孙教授分析到：“纯 SRAM 架构的<strong>挑战</strong>也很明显，主要来自于<strong>容量的限制</strong>。Groq 等芯片基本上都是在<span class="wscn-sensitive">CNN</span>时代进行的立项和设计，对于这个阶段的模型，单芯片百兆 SRAM 来作为存储是够用的。但是在大模型时代，由于模型大小通常可以达到上百 GB，而且 KV-Cache（一种关键数据结构）的存储也非常占用内存，单芯片 SRAM 的容量在大模型场景下显得捉襟见肘。”</p>
<p>他以 Groq 的方案为例来说，为了满足 70B 模型的推理需求，它集成了 576 个独立的芯片，而集成如此多的芯片，对芯片间、节点间互联的带宽和延迟要求也非常的高。576 芯片的集群只有 100GB 的 SRAM 容量。模型需要通过细粒度的流水线并行（PP）和张量并行（TP）的方式进行切分，来保证每个芯片分到的模型分块在 200MB 以内。细粒度切分的代价是芯片间通信的数据量和开销显著上升，虽然 Groq 在互联方面也进行了定制优化来降低延迟，但是通过简单估算可以发现，目前芯片间数据传输同样可能成为性能瓶颈。”</p>
<p>另一方面，由于容量的限制，其留给推理时的激活值的存储空间十分受限。特别是目前 LLM 推理需要保存 KV-Cache，这是随着输入输出长度线性增长的数据。通常对于 70B 模型，即使用了特殊技术进行 KV-Cache 压缩（GQA），32K 的上下文长度需要为每个请求保留 10GB 左右的 KV-Cache，这意味着在 32K 场景下同时处理的请求数最大仅为 3。对于 Groq 来说，由于依赖流水线并行（TP），需要至少流水线级数这么多的请求来保证系统有较高利用率，较低的并发数会显著降低系统的资源利用率。所以，如果未来长上下文（Long-Context）的应用场景，在 100K 甚至更长的上下文下，纯 SRAM 架构能支持的并发数会非常受限。换一个角度看，对于边缘场景，如果采用更激进的 MQA、更低的量化比特，可能会使 SRAM 架构更为适用。</p>
<p>如果 Groq 这类芯片确实能够找到合适的应用场景，应该会让算法从业者更积极挖掘模型压缩、KV-Cache 压缩等算法，来缓解纯 SRAM 架构的容量瓶颈。一些对推理延迟有强需求的算法和应用，如 AutoGPT, 各种 Agent 算法等，整个算法流程需要链式处理推理请求的，会更有可能做到实时处理，满足人与真实世界交互的需求。</p>
<p>因此，在孙教授看来，<strong>采用纯 SRAM 还是 HBM 与未来模型发展和应用的场景非常相关</strong>。对于数据中心这类采用较大的 batch 数、较长的 sequence length、追求吞吐的场景，HBM 这类大容量存储应该更加合适。对于机器人、自动驾驶等边缘侧，batch 通常为 1，sequence length 有限，追求延时的场景，尤其考虑到模型有机会继续压缩，纯 SRAM 的场景应该有更大的机会。另外，还可以同时期待一些新的存储介质的发展，能否将片上存储容量从百 MB 突破到 GB 的规模。</p>
<section>
<section>
<section>
<section>
<h2><strong>应对 “存储墙” 挑战：芯片架构创新势在必行</strong></h2>
</section>
</section>
</section>
</section>
<section>
<p>实际上，除了前述的纯 SRAM 解决方案外，为了应对当前冯诺依曼架构面临的 “存储墙” 问题，业界正在探索多种新型架构，包括存算一体和近存计算等。这些探索涵盖了基于传统的 SRAM、DRAM 以及新兴的非易失性存储技术，如 RRAM、STTRAM 等，都有广泛的研究正在进行中。在处理大型模型的场景中，也有相关的创新尝试，例如三星、海力士等企业正积极研发的 DRAM 近存计算架构，可以很好的在带宽和容量之间提供权衡，对于访存密集 KV cache 和小 batch 的 Decode 处理部分也提供了不错的机会。（对这部分有兴趣，可以参考 “Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models”<em>【3】</em>这篇文章关于 KV cache 的处理，孙教授团队比较关注的研究方向。）</p>
<p>另外，从更广义的角度分析，无论采用哪种存储介质、无论采用存算还是近存架构，其本质目的和 Groq 出发点是类似的，都是<strong>挖掘存储架构的内部高带宽来缓解访存瓶颈</strong>。如果同时考虑大容量的需求，都需要将存储分块，然后在存储阵列附近（近存）或阵列内（存内）配备一定的算力单元。当这种分块的数量达到一定数量，甚至会突破单个芯片的边界，就需要考虑芯片间的互连等问题。对于这类计算和存储从集中式走向分布式的架构，孙教授团队在研究时也习惯称为空间型计算（Spatial Computing）架构。简言之，每个计算或者存储单元的位置都对它承担的任务有影响。一方面，在芯片层面，这种分布式计算架构和 GPU 提供抽象是不同的；另一方面，当规模扩大到多芯片/多卡这个级别，面临的问题又是类似的。</p>
<p>总之，<strong>大模型确实给传统的芯片架构带来了极大的挑战，迫使芯片从业者发挥主观能动性，通过 “另辟蹊径” 的方式来寻求突破</strong>。值得关注的是，国内也已经有一批架构创新型的芯片企业，陆续推出了存算一体或近存计算的产品，例如、知存科技、后摩智能、灵汐科技等。</p>
<p>考虑到芯片的研发周期通常长达数年，孙教授认为在尝试新技术的时候需要对未来的应用（如 LLM 技术）的发展趋势有一个合理的预判。分析好应用的发展趋势，通过软硬件的设计预留一定的灵活性和通用性，更能够保证技术长期适用性。</p>
<section>
<section>
<blockquote>
<p><span style="color: #808080">【1】《Inference Speed Is the Key To Unleashing AI’s Potential》，Groq</span></p>
<p><span style="color: #808080">附孙教授所提及的论文地址：</span></p>
<p><span style="color: #808080">【2】Chiplet Cloud: Building AI Supercomputers for Serving Large Generative Language Models（https://arxiv.org/pdf/2307.02666.pdf）</span></p>
<p><span style="color: #808080">【3】Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models（https://ieeexplore.ieee.org/abstract/document/10218731）</span></p>
</blockquote>
<p><span style="color: #808080">本文作者：杜芹 DQ，来源：半导体行业观察，原文标题：《挑战英伟达，需要另辟蹊径》</span></p>
</section>
</section>
</section>
<p></p><div>风险提示及免责条款</div>
          <div>
            市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。
          </div>

NVDA

GOOG

AMZN

GOOGL

<p>Groq 是近期 AI 芯片界的一个明星。3 月 2 日，据报道，Groq 收购了一家人工智能解决方案公司 Definitive Intelligence。Groq 是由前谷歌员工乔纳森·罗斯创立的，团队中成员有谷歌、亚马逊、苹果的前员工。Groq 开发了一款 LPU（语言处理单元）推理引擎，该引擎在 AI 市场上展现了快速的推理速度，比英伟达的 GPU 有显著提升。Groq 的挑战者主要从推理切入，AI 推理市场对英伟达来说非常重要。</p>