Track Hyper | The Evolution of Intel Chip Design

奇特的 AI 卡 Gaudi 3 和求變的 Xeon 6。

作者：周源/華爾街見聞

9 月 25 日，英特爾正式推出 AI 加速卡 Gaudi 3 和 “Granite Rapids” Xeon 6（至強 6，服務器 CPU）。

Gaudi 3 對標英偉達 H100 和 AMD 的 Instinct MI300，用於 GAI 和 HPC；Xeon 6 專為人工智能和高性能計算場景設計。

雖弱但強？怎麼理解？

今年 4 月，英特爾就宣佈，將於今年四季度推出 Gaudi 3，現在，市場終於可以看到這顆英特爾傾盡全力研發的 AI 加速卡的實際性能，究竟有多強。畢竟，英特爾要靠這顆芯片正面 PK 英偉達廣受市場歡迎的 H100 加速卡。

除了選用 HBM2E（第三代）作為存儲中心，較為令人迷惑——H100 用的是 HBM3（H100 SXM5 GPU 是全球首款使用 HBM3 內存的 GPU，提供了高達 3 TB/s 的內存帶寬），其他的性能升級，至少從參數看，還是非常驚人的。

Gaudi 3 採用台積電 5nm 製程工藝，擁有兩個芯片組：每個芯片組各有 4 個（合計 8 個）MME（矩陣乘法引擎），包含 64 個張量處理器核心（TPC，帶有 FP32 累加器的 256x256 MAC 結構）；SRAM 緩存容量翻番至 96MB，帶寬翻倍至 19.2TB/s；HBM2E 內存容量從 96GB 增加到 128GB（8 顆），帶寬為 3.7TB/s。

與前代 Gaudi 2 相比，在物理配置上，Gaudi 3 也有明顯的大幅提升。Gaudi 2 用了台積電 7nm 工藝，有 24 個 TPC、2 個 MME 和 96GB HBM2E 高帶寬內存。但不知出於何種考慮，英特爾 Gaudi 3 僅支持 FP8 矩陣運算和 BFloat16 矩陣和矢量運算，不再支持 FP32、TF32 和 FP16。

性能方面，Gaudi 3 的 MME 和矢量 BF16 的參數都趕不上英偉達 H100。

Gaudi 3 的 MME BF16/FP8 都是 1835 TFlops（1.835 億億次/秒），矢量 BF16 能達到 28.7 TFlops（28.7 萬億次/秒），分別比 Gaudi 2 提升 3.2 倍、1.1 倍和 1.6 倍；但是英偉達 H100 的這三項性能參數分別為 BF16 的 1979 TFlops（高於 1835 TFlops）、FP8 的 3958 TFlops 和 1979TFlops。

在核心性能參數上，Gaudi 3 和英偉達 H100 的差距肉眼可見。但是，英特爾卻宣稱，Gaudi 3 比 H100 的 LLM 大模型推理性能領先 50%、訓練時間快 40%，綜合性價比是英偉達的兩倍。

這是怎麼做到的呢？是不是英特爾的軟件能力（尤其是軟件開發配套工具）和 AI 生態比英偉達更強？畢竟硬件性能需要強悍的軟件能力，以及完善的生態做配合，才能充分激發。

對此，英特爾沒有做過多解釋，其宣稱比英偉達更強的證據，僅是幾張 PPT。因此，是否真能像英特爾説的那樣，還需要市場和時間驗證。

唯一讓市場對英偉達高度自信有信心的是售價。今年早些時候，英特爾表示，基於八顆 Gaudi 3 的 AI 加速器套件，售價 12.5 萬美元。也就是説，每顆 Gaudi 3 售價約 15,625 美元。相比之下，H100 目前售價為 30,678 美元，英特爾 Gaudi 3 的價格是英偉達 H100 的 50.93%。

至少英特爾高層也承認生態的價值，認知還是相當全面的。

英特爾執行副總裁兼數據中心和人工智能事業部總經理 Justin Hotard 説，“對 AI 的需求正在推動數據中心發生巨大轉變，業界要求在硬件、軟件和開發工具方面做出選擇。隨着我們推出配備 P 核的 Xeon 6 和 Gaudi 3 AI 加速器，英特爾正在建立一個開放的生態系統，使我們的客户能夠以更高的性能、效率和安全性實施所有工作負載。”

從這個表態可以看出，英特爾的 AI 加速卡生態也在構建過程中。開發配套軟件方面，Gaudi 3 能無縫兼容 PyTorch 框架、Hugging Face Transformer 和擴散模型；同時，Gaudi 3 會提供給 IBM Cloud 和英特爾 Tiber 開發者雲。

此外，Gaudi 3 加速器提供三種部署形態，分別是 OAM 2.0 標準夾層卡，被動散熱峯值功耗 900W，液冷散熱峯值功耗 1200W；HLB-325 通用基板，功耗未知；HL-338 擴展卡，PCIe 5.0 x16 接口，被動散熱峯值功耗 600W。

基於英特爾 Gaudi 3 的系統將於今年第四季度從戴爾、HPE 和超微全面上市，戴爾和超微的系統將於 10 月出貨，超微的設備將於 12 月出貨。

設計思路向聯發科看齊？

同一日，英特爾還發布了宣稱過久卻遲遲不露面，故而快被遺忘的 “Granite Rapids” Xeon 6（CPU）。

好在 9 月 25 日，“Granite Rapids” 服務器 CPU 系列的高端產品終於登台，市場認為，“Granite Rapids” Xeon 6 與今年 6 月發佈的 “Sierra Forest” Xeon 6 芯片組合起來，還是能打的，起碼能降低英特爾在 IDC（數據中心）領域的市場損失。

儘管這個結果不那麼好——推出一顆新的性能強勁的處理器，作用僅僅是降低損失，這無論怎麼説，都有點令人沮喪。但是，英特爾的對手——AMD 現在對英特爾來説，後者難以在技術、成本、性能和市場等維度做到超越，故而若能減少損失，這結果已經相對理想。

由於 Xeon 6 的 E 核（能耗）和 P 核（性能）變體的芯片封裝和架構，在 2023 年的 Hot Chips 2023 已經公開，所以實際上，對 “Granite Rapids” Xeon 6 來説，性能提升的亮點就 9 月 25 日披露的信息看，最鼓舞至少是英特爾公司信心，部分讓市場看到希望的亮點，是——Xeon 6 提升了設計水平。

芯片設計水平能決定最終的性能表現，芯片設計最難的部分是取捨，這取決於對特定芯片定位、性能、技術水平、成本、競爭和市場需求度等極多維度的綜合考慮。

比如聯發科技設計旗艦芯片的核心考慮是要在保持相對低功耗的基礎上，再考慮性能提升；而高通更追求高性能，不像聯發科那麼極度追求功耗平衡，所以之前推出了飽受市場詬病的火龍芯片。

英特爾的芯片設計考慮，有點類似於聯發科。比如 IPC（每時鐘指令數）常被用來衡量 CPU 性能的重要指標。那麼在芯片設計時，無限制提升 IPC 是可取的嗎？

別忘了還有能耗限制。雖然台式機或者服務器，對能耗的容忍度更高，但也會綜合考慮能耗成本。此時應該如何選擇？

最近，英特爾高級研究員兼 Xeon 6 產品線首席架構師 Ronak Singhal 對這個話題有過一番解釋，核心觀點就一個，英特爾 Xeon 6 的設計思路是降低能耗，同時再儘可能的保持高性能，故而不過分追求 IPC。

這個設計指導思路的結果就是，“Granite Rapids” Xeon 6，英特爾將核心數量從之前的兩顆 P 核的 56 個核心提升至 120 個，增加 2.3 倍，而頂部部分的功率僅增加至 500W，僅增加 1.4 倍。

總的來説，Xeon 6 的性能特性很多，比如超核心數（UCC）變體，即 Xeon 6 6900P，具有高達 504 MB 的 L3 緩存，遠超通常的英特爾芯片緩存容量。但是 Xeon 6 也有很奇特的設計，比如不支持支持四路和八路服務器的變體，這和 Gaudi 3 使用 HBM2E 一樣令人困惑。