The fastest large-scale model explosion in history! Groq became an overnight sensation, with its self-developed LPU outperforming NVIDIA GPU in speed.

華爾街見聞
2024.02.20 11:49
portai
I'm PortAI, I can summarize articles.

英偉達的挑戰者 Groq 登場!拋棄 GPU,自研 LPU!文本生成速度比眨眼還快!推理場景速度比英偉達 GPU 快 10 倍,但價格和耗電量都僅為後者十分之一。

一覺醒來,AI 圈又變天了。

還沒消化完 Sora 帶來的震撼,又一家硅谷初創企業帶着史上最快的大模型和自研芯片 LPU 霸佔了熱搜。

就在昨天,AI 芯片創企 Groq(不是馬斯克的 Gork)開放了自家產品的免費試用。相比其他 AI 聊天機器人,Groq 閃電般的響應速度迅速引爆互聯網討論。經過網友測試,Groq 每秒生成速度接近 500 tok/s,碾壓 GPT-4 的 40 tok/s。

有網友震驚地説:

它回覆的速度比我眨眼還快。

不過,需要強調的是,Groq 並沒有研發新模型,它只是一個模型啓動器,主頁上運行的是開源模型 Mixtral 8x7B-32k 和 Llama 270B-4k。

冠絕大模型圈子的響應速度,來自驅動模型的硬件——Groq 並未使用英偉達的 GPU,而是自研了新型 AI 芯片——LPU(Language Processing Units)。

每秒 500 tokens,寫論文比你眨眼還快

LPU 最突出的特點就是快。

根據 2024 年一月的測試結果,由 Groq LPU 驅動 Meta Llama 2 模型,推理性能遙遙領先,是頂級雲計算供應商的 18 倍。

圖片來源:GIT HUB

華爾街見聞此前文章提及,Groq LPU 搭配 Meta Llama 2 70B 能在 7 分鐘內就能生成與莎士比亞《哈姆雷特》相同數量的單詞,比普通人的打字速度快 75 倍。

如下圖所示,有推特網友問了一個和營銷有關的專業問題,Groq 在四秒鐘之內就輸出了上千詞的長篇大論。

還有網友測試同時用 Gemini、GPT-4 和 Groq 完成一個代碼調試問題。

結果,Groq 的輸出速度比 Gemini 快 10 倍,比 GPT-4 快 18 倍。

Groq 在速度上對其他 AI 模型的降維打擊,讓網友直呼,“AI 推理界的美國隊長來了”。

LPU,英偉達 GPU 的挑戰者?

再強調一遍,Groq 沒有開發新的模型,它只是用了不一樣的芯片。

根據 Groq 官網的介紹,LPU 是一種專為 AI 推理所設計的芯片。驅動包括 GPT 等主流大模型的 GPU,是一種為圖形渲染而設計的並行處理器,有數百個內核,而 LPU 架構則與 GPU 使用的 SIMD(單指令,多數據)不同,這種設計可以讓芯片更有效地利用每個時鐘週期,確保一致的延遲和吞吐量,也降低了複雜調度硬件的需求:

Groq 的 LPU 推理引擎不是普通的處理單元;它是一個端到端系統,專為需要大量計算和連續處理的應用(如 LLM)提供最快的推理而設計。通過消除外部內存瓶頸,LPU 推理引擎的性能比傳統 GPU 高出幾個數量級。

簡單來説,對用户而言,最直觀的體驗就是 “快”。

使用過 GPT 的讀者一定知道,痛苦地等待大模型一個一個地吐出字符是一種怎樣痛苦的體驗,而 LPU 驅動下的大模型,基本可以做到實時響應。

比如下圖,華爾街見聞向 Groq 詢問 LPU 和 GPU 的區別,Groq 生成這個回答用時不到 3 秒,完全不會像 GPT、Gemini 那樣出現顯著的延遲。如果以英文提問,生成速度還會更快。

Groq 官方的介紹還顯示,創新的芯片架構可以把多個張量流處理器(Tensor Streaming Processor,簡稱 TSP)連接在一起,而不會出現 GPU 集羣中的傳統瓶頸,因此具有極高的可擴展性,簡化了大規模 AI 模型的硬件要求。

能效也是 LPU 的另一個亮點。通過減少管理多個線程的開銷和避免內核的利用率不足,LPU 每瓦特可以提供更多的算力。

Groq 創始人兼首席執行官 Jonathan Ross 在採訪中,時時不忘給英偉達上眼藥。

他此前對媒體表示,在大模型推理場景,Groq LPU 芯片的速度比英偉達 GPU 快 10 倍,但價格和耗電量都僅為後者的十分之一。

實時推理是通過經過訓練的 AI 模型運行數據的計算過程,以提供 AI 應用的即時結果,從而實現流暢的最終用户體驗。隨着 AI 大模型的發展,實時推理的需求激增。

Ross 認為,對於在產品中使用人工智能的公司來説,推理成本正在成為一個問題,因為隨着使用這些產品的客户數量增加,運行模型的成本也在迅速增加。與英偉達 GPU 相比,Groq LPU 集羣將為大模型推理提供更高的吞吐量、更低的延遲和更低的成本。

他還強調,Groq 的芯片,由於技術路徑不同,在供應方面比英偉達更充足,不會被台積電或者 SK 海力士等供應商卡脖子:

GroqChip LPU 的獨特之處在於,它不依賴於三星或 SK 海力士的 HBM,也不依賴於台積電將外部 HBM 焊接到芯片上的 CoWoS 封裝技術。

不過,另有一些 AI 專家在社交媒體上表示,Groq 芯片的實際成本並不低。

如人工智能專家賈揚清分析稱,Groq 綜合成本相當於英偉達 GPU 的 30 多倍。

考慮到每張 Groq 芯片的內存容量為 230MB,實際運行模型需要 572 張芯片,總成本高達 1144 萬美元。

相比之下,8 張 H100 的系統在性能上與 Groq 系統相當,但硬件成本僅為 30 萬美元,年度電費約 2.4 萬美元。三年總運營成本對比顯示,Groq 系統的運營成本遠高於 H100 系統,

而且,更關鍵的是,LPU 目前僅用於推理,要訓練大模型,仍然需要購買英偉達 GPU。

創始人為谷歌 TPU 設計者之一 相信未來 2 年能賣出 100 萬個 LPU

在今天互聯網上一炮而紅之前,Groq 已經低調埋頭研發 7 年多的時間。

公開資料顯示,Groq 成立於 2016 年,總部位於美國加州聖塔克拉拉山景城。公司創始人 Jonathan Ross 是前谷歌高級工程師,是谷歌自研 AI 芯片 TPU 的設計者之一。產品主管 John Barrus 曾在谷歌及亞馬遜擔任產品高管。

高管內唯一一位華裔面孔、副總裁 Estelle Hong,在公司任職已有四年,此前曾供職於美國軍隊及英特爾。

就在去年 8 月,Groq 也宣佈了和三星的合作計劃,表示其下一代芯片將在美國德克薩斯州三星芯片工廠採用 4 納米工藝生產,預計量產時間為 24 年下半年。

展望下一代 LPU,Ross 相信 GroqChip 的能效將提高 15 到 20 倍,可以在相同的功率範圍內為設備增加更多的矩陣計算和 SRAM 存儲器。

在去年底的採訪中,Ross 表示,考慮到 GPU 的短缺和高昂的成本,他相信 Groq 未來的發展潛力

在 12 個月內,我們可以部署 10 萬個 LPU,在 24 個月內,我們可以部署 100 萬個 LPU。