Groq 的 LPU,能否顛覆英偉達的 GPU?

華爾街見聞
2024.02.23 08:21
portai
I'm PortAI, I can summarize articles.

LPU 最顯著的特點就是快——每秒生成大約 500 個 tokens,而 GPU 每秒只能生成約 40 個 tokens。但在同等吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍。

AI 熱潮還在持續,“AI 賣鏟人” 英偉達遭遇對手 Groq,後者靠着自研芯片 LPU 火遍社交網絡。

LPU 最顯著的特點就是快——每秒生成大約 500 個 tokens,而 GPU 每秒只能生成約 40 個 tokens。

最近在社交媒體上,充斥着大量 Groq 與其他 AI 系統的對比,但其中最為核心的一點是:LPU 能否顛覆英偉達 GPU 的霸主地位?

“性價比” 因素難有定論

LPU 能否顛覆 GPU 的關鍵就在於性價比,但這一點尚不能確定。

隨着 AI 熱浪席捲,AI 新創企業不僅難以獲得 GPU,而且成本翻倍。困擾 AI 開發工程師的難題,就是如何儘可能低成本獲得強大的 GPU(比如英偉達的 A100 和 H100 芯片)。LPU 的出現無疑是為 AI 開發者提供了一個新的選項。

從性能上看,橫空出世的 Groq 聲稱 LPU 芯片速度比 GPU 快 10 倍。

為什麼 LPU 芯片速度能提高這麼多?Groq 品牌和創意副總裁 Mark Heaps 解釋稱,LPU 通過 “軟件優先的硬件解決方案”,簡化了數據的傳輸方式,而這種簡化既表現在芯片上,還表現在芯片之間甚至是整個網絡中。他補充説:

LPU 不需要調度程序、CUDA 庫、內核等內容,但它不僅可以提高性能,還可以改善開發人員的體驗。

但從價格上看,LPU 與 GPU 價格孰高孰低,引起了一些爭議。華爾街見聞此前提到,原阿里技術副總裁賈揚清發文分析,一張 LPU 卡僅有 230MB 的內存,且售價超 2 萬美元,在運行 Llama-2 70b 模型時,需要 305 張 Groq 卡才足夠,而用 H100 則只需要 8 張卡。這意味着在同等吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍

華為 “天才少年” 左鵬飛則表示,Groq 成本價非常低,預計每卡成本在 1200 美金左右。GPU 的成本大頭則在 HBM,但 Groq 直接丟掉了 HBM,可以按 SRAM 的成本價估算卡成本。按 1200 美金/卡的成本計算,500 張 Groq 卡的總成本是 60 萬美金。Groq 公司拿這 60 萬美金只能採購兩台英偉達 H100。

Heaps 表示,他們的芯片是基於 14nm 成熟工藝,容易獲取且成本低廉。同時,Heaps 指出了 LPU 未來的發展方向:

我們下一代產品是 4nm 芯片。

與 GPU 的適用場景各異

Heaps 在比較 GPU 與 LPU 時提到,選擇 GPU 與 LPU 往往需要考慮很多因素,比如工作負載和型號。Heaps 稱,在運行較小規模的硬件部署時,GPU 系統確實將很有優勢:

但如果我們談論的是使用大型語言模型,為成千上萬的用户提供服務的大型系統,我們的數據顯示 LPU 在功耗方面更有效率。

在 Groq LPU 推出之前,大模型的訓練和推理都是基於英偉達 GPU 來設計,採用昂貴的 CUDA 軟件技術棧,而 LPU 則是專為 AI 推理所設計的芯片,在很多領域還未被大規模應用。

Heaps 解釋説,去年大量新的 LLM 模型推出,需要芯片兼容訓練和推理,而往後則會有更差異化的需求,LPU 就有了用武之地:

過去,人們想要一個像 GPU 這樣的通用解決方案,既可以用於訓練,也可以用於推理。

但現在,新興市場迫使人們追尋差異化,此時通用的解決方案並不能很好地幫助他們實現目標。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。