AI 掀起 “算力革命”:英偉達之後,AMD 也要放大招!

華爾街見聞
2023.06.01 03:36
portai
I'm PortAI, I can summarize articles.

與英偉達 GH200 超級芯片類似,AMD 在 2023 下半年即將推出的 MI300 也將採用 CPU+GPU 架構,同樣發力於 AI 訓練市場。 英偉達的高算力 GPU 一直是 AI 訓練的首選,但隨着谷歌 TPU、AMD MI300 及雲廠商自研芯片等的強勢湧入,AI 訓練的市場格局變化苗頭漸生。

千呼萬喚始出來,DGX GH200 超級計算系統助力新一代大 AI 模型,與英偉達 GH200 超級芯片類似,AMD 在 2023 下半年即將推出的 MI300 也將採用 CPU +GPU 架構,同樣發力於 AI 訓練市場。

英偉達在 2023 COMPUTEX 大會上更新了多款 AI 算力產品。當中焦點落在 DGX GH200 超級計算系統上。該系統是通過 NVLink 互連技術及 NVLink Switch System,串聯 32 台由 8 塊 GH200 超級芯片(總計 256 塊)合併而成的單一超級計算系統,存儲器容量高達 144 TB,大規模的共享內存能解決 AI 大模型訓練的關鍵瓶頸,將為生成式 AI 語言應用、推薦系統和數據分析工作負載的大模型增添動力。英偉達宣佈 Google Cloud、Meta 與微軟將是其首批用户。

核心觀點

先進的加速計算 + 網絡技術,為吞吐量和可擴展性迎來新突破

DGX GH200 集成了英偉達最先進的加速計算和網絡技術,為提供最大的吞吐量和可擴展性而設計。NVIDIA NVLink-C2C 將 CPU 與 GPU 相連組成 GH200 超級芯片,它們再通過 NVLink Switch System 組成高帶寬的多 GPU 系統,每個 Grace Hopper 超級芯片還配有一個 NVIDIA ConnectX-7 網絡適配器和一個 NVIDIA BlueField-3 NIC。從具體參數上看 DGX GH200 性能優異,DGX GH200 可提供高達 1 exaFLOPS=1000 petaFLOPS 的算力。在 2023 年底,結合 Quantum-2 InfiniBand 技術與 4 台 DGX GH200 的 AI 超級計算機 NVIDIA Helios(含 1024=4*256 個 GH200 超級芯片)將會推出,或標誌英偉達在 AI 和數據分析工作負載加速計算的又一突破。

英偉達 GH200 vs AMD MI300,互聯和生態圈或是 AMD 破局的主要障礙

英偉達的 Grace Hopper 與 AMD 的 MI300 同為 CPU+GPU 架構。我們認為,該架構已成為 AI 芯片的趨勢,鑑於 AI 的最終目標是模仿人類大腦的操作,AI 芯片也應仿生人腦結構,並順應多模態模型的發展。CPU 更像左腦,負責對信息的邏輯處理,如串行運算、數字和算術、分析思維、理解、整理等,而 GPU 更像右腦,負責並行計算、創造性思維和想象等。在面對不同模態的推理時,CPU 與 GPU 的分工也各有不同。例如,在處理語音、語言和文本時,計算有序,因此或更適合使用 CPU;但在處理圖像、視頻等推理時,需要大規模並行運算,或更適宜 GPU。此前,英特爾也曾準備發佈同類產品 Falcon Shores。

AI 訓練多方入局苗頭初生,AI 推理百花齊放難決勝負

英偉達的高算力 GPU 一直是 AI 訓練的首選,但隨着谷歌 TPU、AMD MI300 及雲廠商自研芯片等的強勢湧入,AI 訓練的市場格局變化苗頭漸生。谷歌的 TPU 是少數能與英偉 GPU 匹敵的芯片,但面臨着通用性的侷限;AMD MI300 在製程、架構及算力等多方面雖向英偉達 GPU 看齊,但仍存在軟件生態和互聯的突圍障礙。在 TCO、研發可控性及集成生態圈等因素下,微軟、谷歌及亞馬遜等頭部雲廠商推進自研芯片乃大勢所趨。在算力要求比訓練低的推理端,各類芯片百花齊放,主要根據不同 AI 工作負載來選擇,或不會演變出像訓練端一家獨大的競爭局面。總體而言,AI 訓練和推理的 TAM 雖在不斷變大,但英偉達在當中的增速能否跟上是支撐公司發展的關鍵。

從 Spectrum-X 網絡平台到超算系統,英偉達為 AI 計算全面加速

除了 GH200 芯片及 DGX GH200 超算系統的重磅發佈,CEO 黃仁勳在本次 2023 COMPUTEX 還宣佈了多款新品全面加速 AI 計算:專門用於提高以太網 AI 雲性能和效率的網絡平台 Spectrum-X 及用於創建加速服務器的模塊化參考架構 NVIDIA MGX,為 AI 及 HPC 的客户提供多元化選擇。

正文

DGX GH200 超級計算系統為新一代大 AI 模型而設

Grace Hopper 超級芯片宣佈全面投產。嚴格意義上來説,GH200 並不是一款 “全新” 的芯片,因為早在 2022 年的 GTC 大會,英偉達就已經公佈了由首款數據中心 CPU Grace+ 新一代高性能計算 GPU Hopper 打造而成的 Grace Hopper Superchip 並透露其使用了 NVLink-C2C 技術,具有高達 900 GB/s 的一致性接口速率;在 2023 年的 GTC 大會上,英偉達 CEO 黃仁勳先生也曾手持這款超級芯片進行首次實物展示。距離 Grace Hopper 首次發佈 14 個月後的 COMPUTEX 2023 上,GH200 Grace Hopper 超級芯片被正式宣佈已經全面投產,將為大規模 HPC 和 AI 應用帶來突破性的加速計算。

Grace Hopper 超級芯片:NVLink-C2C 技術賦能芯粒互聯。NVIDIA NVLink-C2C 是一種超快速的芯片到芯片、裸片到裸片的互連技術,它從 PCB 級集成、多芯片模塊 (MCM)、硅中介層或晶圓級連接實現擴展,是 Grace Hopper 超級芯片異構集成的關鍵。通過 NVLink-C2C 技術,Grace CPU 與 Hopper H100 GPU 構成一個完整的系統,並實現內存相互訪問,從而無需沿循 “CPU-內存 - 主板 - 顯存-GPU” 基於主板 PCIe 的迂迴路線,減少了 CPU 計算損耗,並大幅提升功耗效率、延時和帶寬。值得注意的是,NVLink-C2C 技術不僅止於 CPU+GPU,而是支持定製裸片與 NVIDIA GPU、CPU、DPU、NIC 和 SoC 等多種芯片之間的一致互連,將為數據中心帶來全新的系統級集成芯產品。

DGX GH200 超級計算機:Grace Hopper 超級芯片 +NVIDIA NVLink Switch System,專為新一代大規模 AI 模型而設。DGX GH200 超算是第一款將 Grace Hopper 超級芯片與 NVIDIA NVLink Switch System 配對使用的超級計算機,它通過 NVLink 互連技術及 NVLink Switch System 串聯 32 台由 8 塊 GH200 超級芯片組成的系統,將總計 256 塊 GH200 Superchip 合併成單一超級計算機,提供了 1 exaFLOPS=1000 petaFLOPS 算力與 144 TB 的內存。這種大規模共享內存解決了大規模 AI 的關鍵瓶頸,將為生成式 AI 語言應用、推薦系統和數據分析工作負載的巨型模型增添動力。Google Cloud、Meta 與微軟將是 DGX GH200 的首批用户。

先進的加速計算 + 網絡技術,為吞吐量和可擴展性迎來新突破。DGX GH200 集成了英偉達最先進的加速計算和網絡技術,為提供最大的吞吐量和可擴展性而設計。NVIDIA NVLink-C2C 將 CPU 與 GPU 相連組成 GH200 超級芯片,它們再通過 NVLink Switch System 組成高帶寬的多 GPU 系統,每個 Grace Hopper 超級芯片還配有一個 NVIDIA ConnectX-7 網絡適配器和一個 NVIDIA BlueField-3 NIC。從具體參數上看 DGX GH200 性能優異,DGX GH200 可提供高達 1 exaFLOPS 的算力,標誌着 GPU 在 AI 和數據分析工作負載加速計算的又一突破。

英偉達 GH200 vs AMD MI300

與英偉達 GH200 超級芯片類似,AMD 在 2023 下半年即將推出的 MI300 也將採用 CPU +GPU 架構,同樣發力於 AI 訓練市場。AMD 於 CES 2023 介紹了新一代 Instinct MI300 加速器,結合 CPU 與 GPU,重點發力數據中心的 HPC 及 AI 領域,對標英偉達 Grace Hopper(Grace CPU + Hopper H100 GPU),一改過去 AMD 的 GPU 產品主要應用在圖像處理及 AI 推理領域的侷限。公司早前在 22Q4 財報電話會里提及,MI300 已開始送樣給重要客户,而正式推出將會在下半年,2024 年將看到明顯貢獻。我們認為,MI300 雖然目前可能在網絡互聯技術和生態圈較為受限,但在突出的性能和高性價比下或將成為 AMD 在 AI 競爭的關鍵拐點?

我們將從芯片架構和製程、算力、內存帶寬、價格和軟件生態對 AMDMI300 和英偉達 GH200 兩者競爭優勢展開對比:

1)芯片架構:CPU+GPU 仿生人腦結構,製程看齊英偉達。MI300 是 AMD 首款結合了 Zen 4 CPU 與 CNDA 3 GPU 的產品,也是市場上首款 “CPU+GPU+ 內存” 一體化產品。MI300 採用 3D 堆疊技術和 Chiplet 設計,配備了 9 個基於 5nm 製程的芯片組(據 PCgamers 推測,包括 3 個 CPU 和 6 個 GPU),置於 4 個基於 6nm 製程的芯片組之上。因此在製程上,MI300 屬台積電 5nm,相較 MI200 系列的 6nm 實現了躍遷,並與英偉達 Grace Hopper 的 4nm 製程(屬台積電 5nm 體系)看齊。MI300 晶體管數量達到 1460 億,多於英偉達 H100 的 800 億,以及前代 MI250X 的 582 億晶體管數量。CDNA 3 架構是 MI300 的核心 DNA,MI300 配備了 24 個 Zen 4 數據中心 CPU 核心和 128 GB HBM3 內存,並以 8192 位寬總線配置運行。

2)算力:MI300 的性能逼近英偉達 Grace Hopper。AMD 上代 MI250X(發佈於 2021 年 11 月)FP32 算力達 47.9 TFLOPS,雖已超越英偉達 A100 的 19.5TFLOPS(發佈於 2020 年 6 月),但其發佈時間在英偉達之後。AMD 暫時未公佈 MI300 與英偉達 Grace Hopper 在算力上的對比,但相較上一代的 MI250X,MI300 在 AI 上的算力(TFLOPS)預計能提升 8 倍,能耗性能(TFLOPS/watt)將優化 5 倍。因此,此次 MI300 的性能提升後有望逼近 Grace Hopper 水平。另外,Grace Hopper 支持 8 位浮點精度,而 MI250X 僅支持 16 位及以上,但 MI300 或將在 AI 訓練中支持 4 位和 8 位浮點精度,可進一步節省算力。

3)內存帶寬:MI300 通過 “統一內存架構”(UnifiedMemory)便利 GPU-CPU 間數據傳輸,效果類比英偉達 NVLinkC2C 技術。MI300 的 3D Chiplet 架構使其內部 CPU 和 GPU 可共享同一內存空間,針對相同數據同時展開計算,實現 “zero-copy”(即 CPU 執行計算時無需先將數據從某處內存複製到另一個特定內存區域),便利單節點內 GPU-CPU 之間的數據傳輸,減少內存帶寬的佔用。而英偉達 Grace Hopper 則通過 NVLink-C2C 實現 GPU-CPU 高速互聯,雙方作為內存共享對等體可以直接訪問對方的對應內存空間,支持 900GB/s 的互聯速度。儘管 AMD 暫未公佈 MI300 的傳輸帶寬,但其創新的統一內存架構實現了 GPU-CPU 在物理意義上真正的內存統一。AMD 雖未公佈 MI300 HBM 的更多信息,但最新代 HBM3 內存帶寬約為 819GB/s,與英偉達 NVLink C2C 900GB/s 帶寬相差不大。因此 MI300 內 GPU-CPU 的統一架構可繞過傳統連接協議速度的障礙,突破 GPU-CPU 之間的數據傳輸速度限制,滿足未來 AI 訓練和推理中由模型大小和參數提升帶來的海量數據計算和傳輸需要。但值得一提的是,英偉達還可以通過 NVLink Switch、Quantum-2 InfiniBand 等技術實現更多層次的互聯,實現帶寬內存幾個數量級的提升,有效解決 GPU 大規模並行運算中 “單節點本地內存不足” 的痛點,MI300 的相關技術信息尚未發佈。

4)價格:高性價比策略或為 AMD 在與英偉達的競爭中再添一碼。儘管 AMD 尚未公佈 MI300 定價,管理層在 FY23Q1 財報電話會中表示數據中心產品將延續往日的高性價比定價風格,重點關注先把市場打開。成本效益乃雲廠商的重中之重,加上單一依賴一個廠商也並非他們所願。公司預計 MI300 將於今年底前推出,並將搭載於勞倫斯利弗莫爾國家實驗室的百億級超級計算機 EI Capitan 及其他大型雲端客户 AI 模型中。公司預計 MI300 營收將在 23Q4 開始放量,24 年持續爬升。

5)軟件生態:對比英偉達的 CUDA(Compute Unified Device Architecture)生態圈,AMD 的 ROCm(Radeon Open Compute Ecosystem)或是其打破英偉達獨大局勢的一大障礙。英偉達於 2007 年發佈 CUDA 生態系統,開發人員可以通過 CUDA 部署 GPU 進行通用計算(GPGPU)。通過先發優勢和長期耕耘,CUDA 生態圈已較為成熟,為英偉達 GPU 開發、優化和部署多種行業應用提供了獨特的護城河。AMD 的 ROCm 發展目標是去建立可替代 CUDA 的生態。而 ROCm 於 2016 年 4 月發佈,相比 2007 年發佈的 CUDA 起步較晚。全球 CUDA 開發者 2020 年達 200 萬,2023 年已達 400 萬,包括 Adobe 等大型企業客户,而 ROCm 的客户主要為研究機構,多應用於 HPC。對任何一種計算平台和編程模型來説,軟件開發人員、學術機構和其他開發者與其學習、磨合和建立生態圈都需要時間,更多的開發者意味着不斷迭代的工具和更廣泛的多行業應用,進一步為選擇 CUDA 提供了更為充分的理由,正向循環、不斷完善的生態也將進一步提高其用户粘性。

針對這樣的現狀,AMD 在豐富其軟件生態也持續有積極動作。雖然目前僅有部分 SKU 支持 Windows 系統,但主流 Radeon 顯卡用户可以開始試用過去僅專業顯卡才能使用的 AMD ROCm (5.6.0 Alpha)。23Q1 公司宣佈其 ROCm 系統融入 PyTorch 2.0 框架,目前 TensorFlow 和 Caffe 深度學習框架也已加入第五代 ROCm。ROCm 也能對應到 CUDA 的部分內容,例如 ROCm 的 HIP 對應 CUDA API,只需要替換源碼中的 CUDA 為 HPI 就可以完全移植。

人腦神經網絡的運作模式始終是人工智能追求的終極形態,CPU+GPU 類比人類左右腦協同工作,或將成為 AI 芯片的主流技術方向。早在 2011 年,AMD 產品構想中就以 CPU 和 GPU 分別類比人類左右腦,並基於此提出了 CPU+GPU 的異構產品策略。類比人腦,AMD 認為左腦更像 CPU,負責對信息的邏輯處理,如串行運算、數字和算術、分析思維、理解、分類、整理等,而右腦更像 GPU,負責並行計算、多模態、創造性思維和想象等。GPU 的算力高,並針對並行計算,但須由 CPU 進行控制調用,發佈指令。在 AI 訓練端,CPU 可負責控制及發出指令,指示 GPU 處理數據和完成複雜的浮點運算(如矩陣運算)。

從 Spectrum-X 網絡平台到超算系統,英偉達全面加速 AI 計算

除了 GH200 超級芯片及 DGX GH200 超算系統的重磅發佈,黃仁勳在本次 2023 COMPUTEX 大會還宣佈了多款新品全面加速 AI 計算:

NVIDIA Spectrum-X 是全球首個面向 AI 的以太網網絡平台。Spectrum-X 基於網絡創新,將英偉達 Spectrum-4 以太網交換機與英偉達 BlueField-3 DPU 緊密耦合,實現了相比傳統以太網結構 1.7 倍的整體 AI 性能和能效提升,並通過性能隔離增強了多租户功能,在多租户環境中保持一致、可預測的性能。Spectrum-X 具有高度通用性,可為人工智能、機器學習和自然語言處理等多元應用提升雲端效能。它使用完全基於標準的以太網,並可與基於以太網的堆棧互操作。目前,全球領先的雲計算提供商正在採用 Spectrum-X 平台擴展生成式 AI 服務。Spectrum-X、Spectrum-4 交換機、BlueField-3 DPU 等現已在戴爾、聯想、超微等系統製造商處提供。

NVIDIA MGX 是提供加速服務器的模塊化架構,滿足全球數據中心多樣化的加速運算需求。NVIDIA MGX 是介於 DGX 和 HGX 之間的模塊化靈活組合,它為系統製造商提供了一個模塊化參考架構,以快速、經濟高效地製造 100 多種服務器機型,適用於廣泛的 AI、高性能計算和元宇宙應用。英偉達表示,ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT 和 Supermicro 將採用 MGX,它可將開發成本削減四分之三,並將開發時間縮短三分之二至僅 6 個月。

AI 超級計算機 NVIDIA Helios:DGX GH200+Quantum-2 InfiniBand,將於 2023 年底推出。NVIDIA 還將進一步升級網絡技術,推出通過 NVIDIA Quantum-2 InfiniBand 串連 4 台 DGX GH200 系統而成的超級計算機,並將其命名為 Helios。該超級計算機內含 1024(4*256)個 GH200 超級芯片,內存進一步升級為 576TB HBM 內存,用於提高訓練大型 AI 模型的數據吞吐量,預計將在今年底上線。

本文作者:何翩翩 S0570523020002 | ASI353,來源:華泰證券研究所 (ID:huataiyjs),原文標題:《華泰 | 海外科技:英偉達 GH200 vs AMD MI300》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。