Track Hyper | AMD's Su Zifeng: Confronting NVIDIA's Huang Renxun

華爾街見聞
2023.06.14 08:50
portai
I'm PortAI, I can summarize articles.

AMD 推出史上最強 AI APU,卻助推 NVIDIA 市值再破萬億美元。

明知不敵,也要亮劍,這不僅僅是獨立團團長李雲龍戰鬥精神的體現,也是 AMD 首席執行官蘇姿豐的。

美東時間 6 月 13 日,被視作 NVIDIA(英偉達)最具現實意義的競對——AMD(超威半導體),發佈了對標 NVIDIA 當前最強 AI 算力加速芯片 H100 的超強 AI APU(加速處理器)——AMD Instinct MI 300X。

從技術角度觀察,AMD 這款加速芯片性能超越 NVIDIA H100 有參數支持。但參數是否能等同性能?資本市場有不同看法。

AMD 股價在美東時間 6 月 13 日盤中創出自 2022 年 1 月 19 日以來的新高後,一路下行,收跌 124.53 美元,跌幅 3.61%;NVIDIA 則收漲 3.9%,報收 410.22 美元,市值第二次突破 1 萬億美元。

MI 300 系列:專為 AGI 而生

AMD Instinct MI 300X,專為生成式 AI 而研發的加速器(國內稱為 AI 芯片)。

與 2022 年 6 月首發的 AMD Instinct MI 300A 不一樣,AMD Instinct MI 300X 沒有集成 CPU 內核,而是採用 8 個 GPU chiplet(基於 CDNA 3 架構)和 4 個 I/O 內存 chiplet 的設計,這讓其集成的晶體管數量高達 1530 億個。

為緩解 AI 大型語言模型(LLM)所面臨的內存制約,AMD 為這款芯片集成 192GB 的 HBM3(高帶寬內存,High Bandwidth Memory),存儲帶寬高達 5.2 TB/s,可處理的參數也達到驚人的 400 億。單顆 MI 300X 能運行一個參數多達 800 億的模型。

可以將 AMD Instinct MI 300A 理解為專為 LLM 定製:擁有 192GB HBM3 內存、5.2TB/秒內存帶寬和 896GB/秒的 Infinity Fabric 帶寬。AMD 將 1530 億個晶體管集成在共 12 個 5nm 的芯片中。

HBM 是一種面向需要極高吞吐量的數據密集型應用程序的 DRAM,作用類似數據 “中轉站”,就是將使用的圖像數據保存到幀緩存區中,等待 GPU 調用。

與其他 DRAM 最大的差別,就是 HBM 擁有超高帶寬。最新一代 HBM 是 HBM3,帶寬最高可達 819 GB/s,GDDR6 的帶寬最高僅 96GB/s,CPU 和硬件處理單元的常用外掛存儲設備 DDR4 的帶寬只有 HBM 的 10%。

如此高的帶寬,就讓 HBM 成為了高性能 GPU 的核心組件。NVIDIA 推出的超級算力集羣 DGX GH200 也採用了 HBM3 顯示存儲器。

根據不同的應用場景,美國 JEDEC(固態技術協會)將 DRAM 分為三種類型:標準 DDR、移動 DDR 和圖形 DDR,HBM 屬於最後一種。

在過去 20 年內,算力提升速度極快,但 I/O(寫入和讀出)帶寬提升有限——前者提升 9 萬倍,後者提升僅 30 倍,由此引發了 “內存牆” 問題,即數據傳輸過慢、能耗過高。

為有效解決數據傳輸瓶頸,提高內存帶寬就成為必須攻克的技術難題。所謂內存帶寬,就是處理器可從內存讀取數據或將數據存儲到內存的速率。

GDDR 採用傳統的方法將標準 PCB 和測試的 DRAMs 與 SoC 封裝在一起,旨在以較窄的數據通道提供更高的數據速率,進而實現必要的吞吐量,具有較高的帶寬和較好的能耗效率。

在決策型 AI 階段,GDDR 的帶寬尚能滿足應用需求,但生成式 AI(AGI)一來,又迫使存儲商想出了 “堆疊”(chiplet)方案(將 GDDR 堆疊後與 GPU 封裝起來),以解決內存帶寬問題,於是 HBM 出現。

從物理結構上看,GDDR 是獨立封裝,放在 PCB 上圍繞於 GPU 周圍,而 HBM 則用 3D 堆疊技術排布在硅中階層(Silicon Interposer)並與 GPU 封裝成一個整體。經如此處理,HBM2 的面積,比 GDDR5 小了近 1 倍(94%)。

目前,HBM 已升級到 HBM3。從最初的 1GB 存儲容量和 128GB/s 帶寬的 HBM1,發展到目前的 64GB 存儲容量和 819GB/s 帶寬(2022 年 1 月 28 日發佈 HBM3 標準)。

在 AGI 應用明確後(即 OpenAI 推出 ChatGPT-3.5),NVIDIA 於 2022 年 3 月推出的 AI 加速器 H100,其性能就比 AMD Instinct MI 300X 有所落後,後者的 HMB 密度是前者的 2.4 倍,帶寬則為前者的 1.6 倍。

在存儲空間方面,AMD Instinct MI 300X 可使用 192GB 內存,而 NVIDIA H100 芯片只支持 120GB 內存。

或許 AMD 還嫌性能趕不上 NVIDIA,畢竟 NVIDIA 還沒推出真正的面向 AGI 的加速器芯片。因此 AMD 稱,基於 896GB/s 帶寬的 AMD Infinity 架構,可將 8 個 AMD Instinct M1 300X 加速器組合在一套系統中,這樣就具備更強算力,為 AI 推理和訓練提供 NVIDIA 之外的解決方案。

目前,AMD Instinct M1 300X 還沒量產,最早將於今年三季度送樣,四季度正式推出。

親戚之間的競爭

AMD CEO 蘇姿豐(Lisa Su)表示,隨着語義模型規模越來越大,需要多個 GPU 支撐超高規模數據量級。但若採用 AMD 專用加速芯片,那麼技術開發人員並不需要數量如此眾多的 GPU。

蘇姿豐還表示,IDC AI 加速器的潛在市場總額將從今年的 300 億美元增長到 2027 年的 1500 億美元 +,年複合增長率超過 50%。

AMD 推出具備如此強悍的 AI 訓練和推理性能的 LLM 專用加速器,但其股價卻在當日的交易盤中出現 3.61% 的跌幅,原因是什麼?

據國內算力供應鏈人士透露,AMD 沒有透露採用 AMD Instinct MI 300 系芯片的大客户名單,相當於沒有正面回應此前資本市場關於採用這款芯片的大客户是哪些的猜測。

另外,這位觀察人士還指出,AMD 也沒有披露 MI 300 系芯片的成本或銷售方案。“考慮到數量極多(24 顆)的 HBM3,極大的 Die 面積以及台積電 CoWoS 封裝產能吃緊,因此出現了這一現象(推出強悍性能芯片,資本市場卻選擇用腳投票)”。

CoWoS 是台積電先進封裝技術組合 3D Fabric 的一部分,該組合共包括前段 3D 芯片堆疊或 TSMC-SoIC(系統整合芯片)、後端 CoWoS 及 InFO 系列封裝技術,可實現更佳效能、功耗、尺寸外觀及功能,達成芯片系統級整合。

AI 預訓練大模型對算力的需求將推動先進封裝技術與 IDC 建設的進一步發展,ChatGPT 等預訓練大模型對算力需求極大,亟需 Chiplet 先進封裝打破摩爾定律的限制,此將成為提升 IDC 建設速度的有效手段。

NVIDIA 統治 AGI 的 LLM 秘技,除了性能強勁的 APU 硬件,其供開發者使用的配套軟件也是黃仁勳 AI 帝國的關鍵地基。因此,AMD 自然有樣學樣,也推出了專用 AI 芯片軟件(類似 NVIDIA CUDA),即 ROCm。

這種配套軟件,就在於大幅降低 GPU 的性能調用門檻。比如,原本需要相對更專業的 OpenGL 圖形編程語言,但有了 NVIDIA CUDA,開發者可以用 Java 或 C++ 就可以調用 GPU。CUDA 的作用,相當於有了一座從普通大眾級代碼軟件走向專業高門檻圖形編程語言的橋樑。

從 AMD 總裁彭明博(Victor Peng)的演講可以看出,AMD 學習 NVIDIA 這種軟硬一體的做法應該很早就開始了,但 “這個過程很長。(當然)在建立與開放模型、庫、框架和工具生態系統的模型一起工作的軟件堆棧方面,我們取得了極大進展。”

彭明博在 AMD 擔任總裁和 AI 戰略負責人,這人的存在,實際上折射了蘇姿豐挑戰 NVIDIA 的戰略構想。

蘇姿豐挑戰 NVIDIA 在 AGI 時代壟斷地位的手段之一,就是收購。2022 年,AMD 以 488 億美元收購主要生產可編程處理器的賽靈思(Xilinx),這有助於加快視頻壓縮任務的速度。彭明博即賽靈思 CEO,被 “打包” 在這筆交易中成為 AMD 總裁。

此外,ADM 還基於自身原本具備的 CPU 優勢,選擇重點發力 APU(加速處理器),與 NVIDIA 核心 APU“A100/H100” 形成差異化競爭。

從市場角度看,兩強競爭,也好過一個具備壟斷能力的 NVIDIA。因此,挑戰者 AMD 若在軟硬一體方面的努力有性能和成本亮點,也並非全無機會。

就像《琅琊榜》和《三國演義》是一堆親戚之間的戰爭,AMD 和 NVIDIA 也有類似戲劇性色彩。

有消息顯示,黃仁勳和蘇姿豐實際上是親戚。黃仁勳之母,與蘇姿豐之外祖,是兄妹關係,只不知是姑表兄妹還是親兄妹。

黃仁勳 9 歲從泰國移居美國,本科畢業於俄勒岡州立大學,取得電氣工程學學士學位;之後獲得斯坦福大學電子工程碩士學位。畢業後進入 AMD 擔任芯片設計工程師,30 歲創立 NVIDIA。

蘇姿豐 5 歲隨父母定居美國,24 歲獲得麻省理工學院 EE(Electrical Engineering,電氣工程)博士學位。之後,先後在 TI、IBM 和 AMD 任職。2014 年,開始領導 AMD。從 2014 年至今年(2023 年),在蘇姿豐領導下的 AMD,股價翻了近 30 倍。