
英偉達封神:潛在對手已現

ChatGPT 算力芯片:螳螂捕蟬,黃雀在後。
ChatGPT 的出現,不但讓 AI 有了比較明確的商業化方向,也在快速改變服務器產業格局。
傳統基於 x86 架構的 CPU 芯片,在服務器領域的統治地位,已岌岌可危。
美國證券半導體分析師在最近發佈的一份報告中提到,由於 ChatGPT 對雲計算以及 IDC 的 AI 算力需求激增,很可能導致商業模式選擇將資源轉向 AI 加速器芯片,比如 NVIDIA(英偉達)的 GPU(圖形處理單元)和 Broadcom/Marvel 的 AI 定製 IC(用於 AI 推理)。
因此,傳統 x86 架構的、主要由 Intel/AMD 提供的服務器 CPU,到 2025 年,可能不再是服務器的主要芯片。
同時,更重要的事情發生了:儘管英偉達的 GPU 產品如今在支撐 ChatGPT 的算力需求時,風頭無倆,但挑戰者(或稱分羹者)卻已出現。
正所謂:螳螂捕蟬,黃雀在後。這隻黃雀,是何方神聖?
英偉達:超越 x86 架構芯片
Vivek Arya,這位半導體分析師在報告中認為,基於傳統 x86 架構的服務器 CPU 芯片商,比如 Intel 或 AMD,正在遇到 NVIDIA 這個 AI 領域領頭羊公司的強力挑戰。
GPU 是英偉達的主要產品,其營收佔總收入的 80%+。GPU 通常作為插入 PC 主板的卡出現,也有些 SoC 芯片設計商,將 GPU 作為 SoC 芯片的一個模塊,整合在系統級芯片中成為一個整體(比如高通驍龍 8Gen 2)。
英偉達的 GPU 芯片,主要作用是為 AMD 或英特爾等公司製造的中央處理器(CPU)增加計算能力。
Vivek Arya 在報告中估計,2023 年至 2025 年,AI 加速器芯片的銷售額將超過 400 億美元(相比 2022 年複合年均增長率達 37%)。於此對應,x86 CPU 複合年均增長率僅 3%,銷售規模也僅為 260 億美元。
在 ChatGPT 出現前,英偉達 GPU 主要在計算機圖形學領域稱王。在 PC 遊戲玩家羣體中,英偉達是神一樣的存在。
英偉達在 GPU 領域的主導地位,並非始於今日。1999 年,英偉達通過 GeForce 256 進入圖形處理市場。20 多年後的 2022 年,遊戲業務帶給英偉達超過 90 億美元的營收。
2022 年 12 月,OpenAI 發佈 ChatGPT。由於 ChatGPT 對算力的極度渴求,相當於給算力爆棚的英偉達安裝了一組營收動力引擎。算力構成了 AI 商業繁榮的基礎。Vivek Arya 説,“使用英偉達的 GPU,去增加更多的計算能力非常容易。現在,計算能力相當於硅谷的貨幣。”
作為支撐 ChatGPT 背後大型語言模型(LLM)底層動力引擎,英偉達由於在 AI 方面的敏鋭洞察力、早期投資和堅定不移的堅持投入,因而獲得了頂級回報。
3 月 20 日-23 日,在英偉達舉行的年度 GTC 開發者大會上,AI 成為主要與會者討論的主要焦點。英偉達首席執行官黃仁勳在被問及 “提前 20 年佈局 AI,到底是運氣還是有先見之明” 時,黃仁勳回答了這麼一句:“我們只是相信總有一天會發生新的事情,其餘的一切都需要一些偶然性”。
如今 AI 芯片組雲市場主要分為三個部分:公共雲由雲服務提供商託管:AWS、微軟、谷歌、阿里巴巴、百度和騰訊等;其次是企業數據中心,性質是私有云和混合雲,即結合公共雲和私有云(VMware、Rackspace、NetApp、HPE 和 DELL)的產品。
除了公共雲、私有云和混合雲,ABI Research 首席分析師蘇連傑認為,還有電信雲,即電信公司為其核心網絡、IT 和邊緣計算工作負載部署的雲基礎設施。
英偉達的 GPU 在雲端訓練方面的主導地位無可撼動。但與此同時,從 2020 年起,ASIC(專用定製芯片)在 AI 推理領域也出現強勁增長。
蘇連傑説,一些雲服務提供商(CSP)認為,推理工作量的規模並不小於訓練工作量。ASIC 是 AI 加速器芯片中用於推理的部分,另一部分即用於訓練的 GPU。
事實上,即使是在 2022 年 12 月 OpenAI 發佈的 ChatGPT 3.5 版本中,也確實出現了 ChatGPT 能根據用户 “投餵” 問題素材的上下文,做出合乎人類邏輯的精確推理。ChatGPT 4.0 版本,推理能力更強。
挑戰者谷歌的 TPU 技術特徵
如果看 AI 定製芯片具備的推理能力,實際上可以發現,英偉達並非缺乏潛在挑戰者。
從技術上看,谷歌的 TPU(張量處理單元)能同時處理 “雲上” 訓練和推理,而非英偉達 GPU 大部分被用於訓練,而 ASIC 又主要用於推理。因此,谷歌的 TPU 被視為 CPU 和 GPU 技術的有力挑戰者。
蘇連傑認為,谷歌在 TPU 方面的展示的 AI 技術能力,正為雲服務提供商開發屬於自己的 AI 加速器 ASIC 提供了方向和技術路徑。華為、AWS(亞馬遜)和百度已經這樣做了。
就像英偉達很早就佈局 AI 算力那樣,谷歌做 TPU 同樣很早。
2006 年,谷歌考慮為神經網絡構建專用集成電路(即 ASIC),到 2013 年,谷歌意識到神經網絡(NPU)快速增長的計算需求,對 ASIC 的需求量很可能會翻番。2015 年,谷歌將 TPU 部署到服務器中,並快速迭代。
谷歌 TPU 如今已迭代到 V4.0 版。據谷歌 4 月 6 日披露,得益於互連技術和領域特定加速器(DSA)方面的關鍵創新,谷歌雲 TPU v4 在擴展 ML(機器學習:Machine Learning)系統性能方面比其前代版本有了近 10 倍的飛躍。
TPU v4 是谷歌於 2021 年推出的、專門用於執行機器學習(ML)的 AI 芯片,是谷歌第 5 代特殊領域加速器(DSA:Domain Specific Accelerator)及第 3 代用於 ML 模型的超級計算機平台。
與英偉達的當紅辣子雞 A100 相比,TPU v4 速度快 1.2-1.7 倍,功耗低 1.3-1.9 倍。
基於這款芯片,谷歌研發了一台擁有 4096 顆 TPU V4 的超級計算機。這也是第一個部署可配置 OCS(光電路開關)的超級計算機平台。
OCS 可動態配置互聯拓撲,以提升擴展性、可用性、利用率、模塊化、安全、性能及用電效率。和 Infiniband 相比,OCS 及其底層光纖組件,系統成本不到 5%。
與 Infiniband(IB:無線帶寬)相比,OCS 和底層光學組件更便宜、功耗更低且速度更快,無需光到電到光的轉換或耗電的網絡分組交換機,從而節省了電力。TPU v4 芯片用電率僅 200w,二氧化碳排放比一般本地部署的數據中心減少 20 倍,是執行大型語言模型的理想平台。
TPU v4 超級計算機的每顆 TPU v4 包含 SparseCores,這是一種更接近高帶寬內存的中間芯片或資料流處理器,許多 AI 運算都發生在該芯片中,可使深度學習模型嵌入(Embeddings)執行速度提升 5-7 倍,裸晶(die)面積僅 5%。
藉由 Sparsecores,搭載 TPU v4 的系統可用於執行搜索、廣告、YouTube 和 Google Play 的 AI 內容推薦。
更令英偉達感受到威脅的是,谷歌宣佈,提供 AI 文本生成圖片服務的 AI 創業公司 Midjourney 已利用 Google Cloud TPUv4 來訓練其第 4 版模型。
就像英偉達的 GPU 在 AI 大模型做集羣訓練時,注重生態體系構建一樣,谷歌也算法 - 芯片協同方面做鉅額投入。
如今,半導體硬件的技術迭代已接近摩爾定律的極限,未來 AI 芯片性能要百尺竿頭更進一步,就硬件層面的提升空間越來越小。算法和芯片的協同設計將取而代之,成為行業主流;搭建軟硬件生態體系和推動行業共建,將在未來成為半導體技術和應用的主要方向。
