關於英偉達最新一代的精髓:NVLink、NVL72

華爾街見聞
2024.04.15 05:19
portai
I'm PortAI, I can summarize articles.

NVIDIA 最新一代的精髓是 NVL72 架構,採用 NVLink-C2C 互聯技術。這個架構可以為大型語言模型的推理提供 30 倍的實時速度提升。NVLink 是一種專門設計用於連接 NVIDIA GPU 的高速互聯技術,可以提升 GPU 通信性能。NVLink 允許 GPU 直接訪問目標 GPU 的顯存,避免了數據交換的延遲。該技術可以大大提高多 GPU 系統的性能和效率,解決了 PCIe 總線帶寬和延時的問題。

英偉達 GTC 發佈的這一代 Blackwell,精髓不是 Grace Blackwell 架構、不是 NVLink domain、不是精度軟件優化液冷等等等等,這些單點都不重要,精髓就在 NVL72 這個架構,這個極致壓縮又極致耦合的 NVL 72。本文就對 NVLink 及 NVL72 做一個分析記錄。

一、NVLink 技術基本情況

(一)NVLink 技術基本概念

算力的提升不僅依靠單張 GPU 卡的性能提升,往往還需要多 GPU 卡組合。在多 GPU 系統內部,GPU 間通信的帶寬通常在數百 GB/s 以上,PCIe 總線的數據傳輸速率容易成為瓶頸,且 PCIe 鏈路接口的串並轉換會產生較大延時,影響 GPU 並行計算的效率和性能。GPU 發出的信號需要先傳遞到 PCIe Switch, PCIe Switch 中對數據進行處理,CPU 會對數據進行分發調度,這些都會引入額外的網絡延遲,限制了系統性能。

為此,NVIDIA 推出了能夠提升 GPU 通信性能的技術——GPU Direct、P2P 技術,使 GPU 可以通過 PCI Express 直接訪問目標 GPU 的顯存,避免了通過拷貝到 CPU host memory Buffer 作為中轉,大大降低了數據交換的延遲,但受限於 PCI Express 總線協議以及拓撲結構的一些限制,無法做到更高的帶寬。此後,NVIDIA 提出了 NVLink 總線協議。

NVLINK 是一種專門設計用於連接 NVIDIA GPU 的高速互聯技術。它允許 GPU 之間以點對點方式進行通信,繞過傳統的 PCIe 總線,實現了更高的帶寬和更低的延遲。NVLINK 可用於連接兩個或多個 GPU,以實現高速的數據傳輸和共享,為多 GPU 系統提供更高的性能和效率。

NVLink 的具體工作方式如下圖所示:

NVLink Switch 協同 NVLink 釋放數據傳輸能力。NVLink Switch 通過連接多個 NVLink,實現了機架內和機架間全速度的 GPU 通信,這是一種 1.8TB/s 雙向直接 GPU 到 GPU 互聯技術,極大地擴展了服務器內多 GPU 的輸入和輸出能力。NVLink Switch 還配備 NVIDIA 可擴展分層聚合和縮減協議(SHARP)™ 引擎,優化了網絡內縮減和多播加速,進一步提高了通信效率。

NVLink Switch 允許 NVLink 連接跨節點擴展,藉助 NVSwitch,NVLink 連接可在節點間擴展,以創建無縫、高帶寬的多節點 GPU 集羣,從而有效地形成數據中心大小的 GPU。

NVLink Switch 產品如下圖所示:

(二)NVLink 技術架構

NVLink 的架構包括 NVLink 橋接器和 NVLink 交換機。NVLINK 橋接器是用於 GPU 與其他設備(如 CPU、內存或其他 GPU)之間通信的組件。它提供了一組 NVLink 接口,可以將 GPU 連接到其他設備上。而 NVLink 交換機是用於 GPU 之間通信的組件。它提供了一組 NVLink 連接端口,可以將多個 GPU 相互連接起來。NVLink 交換機可以位於 GPU 芯片內部或外部,從而形成 NVLink 通信網絡。

NVLink 技術架構如下圖所示:

(三)NVLink 發展迭代

NVLink 自 2014 年推出以來,已經歷了 5 個代際的演進。第一代 NVLink 單鏈可實現 40 GB/s 的雙向帶寬,單芯片可支持 4 鏈路,即 160 GB/s 的總雙向帶寬;2017 年,基於 Volta 架構的第二代 NVLink 發佈,單鏈可實現 50 GB/s 的雙向帶寬,單芯片可支持 6 鏈路,即 300 GB/s 的總雙向帶寬。2020 年,基於 Ampere 架構的第三代 NVLink 發佈,單鏈可實現 50 GB/s 的雙向帶寬,單芯片可支持 12 鏈路,即 600 GB/s 的總雙向帶寬。2022 年,基於 Hopper 架構的第四代 NVLink 發佈,傳輸信號變為 PAM4 調製電信號,單鏈可實現 50 GB/s 的雙向帶寬,單芯片可支持 18 鏈路,即 900 GB/s 的總雙向帶寬。第五代 NVLink 連接技術支持單塊 Blackwell 架構將 GPU 到 GPU 再到 CPU 的總線數據傳輸速度提升至每秒 100GB,每塊 GPU 擁有 18 個 NVLink 連接,Blackwell GPU 的總帶寬可達到 1,800GB/秒,是 NVLink 4.0 的兩倍,也是行業標準 PCIe Gen5 總線帶寬的 14 倍,這確保了最複雜 LLM 之間 576 個 GPU 之間的無縫高速通信。

值得注意的是,除了 NVLink 1.0 採用了 20G 特殊速率點以外,NVLink 2.0~4.0 皆採用了與 Ethernet 相同或者相近的頻點,這樣做的好處是可以複用成熟的 Ethernet 互聯生態,也為未來實現連接盒子或機框組成超節點埋下伏筆。NVSwitch 1.0、2.0、3.0 分別與 NVLink 2.0、3.0、4.0 配合,形成了 NVLink 總線域網絡的基礎。NVLink4.0 配合 NVSwitch3.0 組成了超節點網絡的基礎,這一變化的外部特徵是 NVSwitch 脱離計算單板而單獨成為網絡設備,而 NVLink 則從 1.0 至 3.0 以來的板級互聯技術升級成為設備間互聯技術。

(四)NVLink 搭載產品介紹

NVLink 於 2014 年 3 月的 NVIDIA GTC 2014 上發佈,2016 發佈的 P100 是搭載 NVLink 的第一款產品,單個 GPU 具有 160GB/s 的帶寬,相當於 PCIe Gen3 * 16 帶寬的 5 倍。GTC 2017 上發佈的 V100 搭載的 NVLink 2.0 將 GPU 帶寬提升到了 300GB/s,大約是 PCIe 的 10 倍。2020 年發佈的第三代 NVLink 搭載顯卡 A100,是首次採用 Ampere 架構的 GPU,支持多實例 GPU 功能,允許單個 A100 GPU 分割成多個獨立的小 GPU,大幅提升了雲和數據中心的資源分配效率。

第四代 H100 支持 NVLink4.0,雙向帶寬更是提升到了 900GB/s,H100 能處理最具挑戰性的 AI 工作負載和大規模數據處理任務。H100 升級了 Tensor 核心,顯著提高了 AI 訓練和推理的速度。支持雙精度(FP64)、單精度(FP32)、半精度(FP16)和整數(INT8)計算負載。相比 A100,FP8 計算速度提升六倍,達到 4petaflops。內存增加 50%,使用 HBM3 高帶寬內存,帶寬可達 3 Tbps,外部連接速度幾乎達到 5 Tbps。此外,新的 Transformer 引擎使模型轉換器訓練速度提升高達六倍,適用於對性能有更高要求的 AI 和科學模擬任務。

到了最新一代 NVLink 5.0,英偉達基於 AI 計算節點配合第五代 NVLink 連接多塊 GB200 超級芯片,構建了 DGX 機架,還用 8 個 DGX 機架所包含的 576 塊最強 B200 顯卡構建了 SuperPOD 集羣,AI 算力高達 11.5 Exaflops。此次 B200 採用了 192GB 的 HBM3e 顯存,擁有 8TB 的內存帶寬,提供 20 PetaFlops 的 AI 性能(FP4),10 PetaFlops 的 FP8 性能。GB200 超級芯片對外提供 40 PetaFlops 的 AI 性能,加上 Arm CPU 自帶的內存,總體內存容量就達到了 864GB。另外,還有 16TB/s 的 HBM 內存帶寬,以及總體 3.6TB/s 的 NVLink 帶寬。

二、GB200 NVL72 基本情況

(一)GB200 NVL72 基本概念

GB200 NVL72 採用機架級設計使用第五代 NVLink 實現互聯,NVLink 多節點 all-to-all 帶寬達到 130TB/s。GB200 NVL72 可連接 36 個 Grace CPU 和 72 個 Blackwell GPU,為數據中心提供前所未有的計算能力。GB200 NVL72 將 72 GPU 高密度配置在一個機櫃中,用於大模型訓推,其中櫃內組網以電氣信號背板和銅線的 NVLink 網絡為主,而機櫃外擴容組網尤其千至萬卡互聯則需要 2-3 層交換機網絡和光通信方案。前者是芯片互聯增量,後者架構延續但整體升級。

GB200 NVL72 有 18 個 1U 服務器,其提供的 FP8 性能為 720 petaflops,FP4 計算性能為 1440 petaflops,可處理多達 27 萬億個 AI LLM 參數模型。每台服務器裏帶有兩個 GB200 Grace Blackwell Superchip,這些計算節點帶有 1.7TB 的 HBM3E 內存、32TB/s 的內存帶寬,為應對功耗過於強大問題,NVIDIA 選擇全部採用液冷 MGX 封裝,採取液冷機架級解決方案。

從技術架構方面看,NVIDIA GB200 NVL72 的核心為 GB200 Grace Blackwell Superchip,採用 NVIDIA NVLink-C2C 互聯技術,將兩個高性能 NVIDIA Blackwell Tensor Core GPU 與一個 NVIDIA Grace CPU 連接,實現高效的計算協同,進一步用於支持萬億參數 LLM、多模態任務的變壓器模型、大規模仿真模型和 3D 數據生成模型的更大內存需求,為萬億參數的大型語言模型(LLM)推理提供了 30 倍的實時速度提升。

在 NVL72 系統中,NVLink Switch 實現了 130TB/s 的 GPU 帶寬,極大增強了大型模型的並行處理能力。通過在服務器外部添加第二層 NVSwitch,NVLink 網絡可以連接多達 256 個 GPU,並提供 57.6 TB/s 的多對多帶寬,從而快速完成大型 AI 作業。這種設計使得多服務器集羣可以隨着計算量的增加而擴展 GPU 通信,支持的 GPU 數量是單個 8 個 GPU 系統的 9 倍。NVLink 和 NVLink Switch 作為 NVIDIA 數據中心解決方案的關鍵構建模塊,整合了 NVIDIA AI Enterprise 軟件套件和 NVIDIA NGC™ 目錄中的硬件、網絡、軟件、庫及優化的 AI 模型和應用程序。

Nvidia GB200 NVL72 產品樣圖如下圖所示:

(二)GB200 NVL72 性能對比

GB200 NVL72 能夠大幅提升大規模訓練速度。最新 GB200 NVL72 包含更快的第二代 Transformer 引擎,具有 FP8 精度,能夠將大型語言模型的大規模訓練速度提升 4 倍。得益於每秒 1.8TB 的 GPU 到 GPU 互連速度、InfiniBand 網絡和 NVIDIA Magnum IO™ 軟件的第五代 NVLink 技術,實現了顯著的性能提升。GB200 NVL72 採用的液體冷卻技術不僅提升了計算密度,減少了佔地面積,而且通過高帶寬、低延遲的 GPU 通信,顯著減少了數據中心的碳足跡和能源消耗。與傳統的 NVIDIA H100 風冷基礎設施相比,GB200 在相同功耗下實現了 25 倍的性能提升,同時降低了水消耗。GB200 利用 NVIDIA Blackwell 架構的高帶寬內存性能、NVLink-C2C 以及專用解壓縮引擎,大幅提高了關鍵數據庫查詢的速度,相比 CPU 提升了 18 倍,並將總體擁有成本(TCO)降低了 5 倍,為企業處理、分析大量數據提供了強大的支持。

GB200 NVL72 推理能力、速度性能如下圖所示:

GB200 NVL72 能耗與性能如下圖所示:

三、技術下游應用領域

NVLink 主要應用於 NVIDIA 旗下主要芯片產品,用於實現 GPU 和 CPU 之間的高速數據傳輸,進一步提高數據處理和應用性能。英偉達芯片主要應用於高性能計算、人工智能、數據中心等領域,應用場景廣泛。因此,本札記中聚焦於 NVLink 5.0 搭載產品 Blackwell 平台主要應用領域——人工智能與車載計算,介紹其市場應用情況。

(一)AI 算力爆發催化下,萬億參數級生產式 AI 超級計算機應運而生

NVIDIA 敏鋭地捕捉到 AI 技術對計算能力的迫切需求,並通過 Blackwell 芯片的研發來滿足這一市場需求。Blackwell 的發佈,標誌着 AI 硬件領域邁入了一個新紀元,其強大性能將為 AI 公司提供前所未有的計算支持,助力訓練出更復雜、更精準的模型,基於 Blackwell 的 AI 算力將以名為 DGX GB200 的完整服務器形態提供給用户,結合了 36 顆 NVIDIA Grace CPU 和 72 塊 Blackwell GPU,而這些超級芯片通過第五代 NVLink 連接成一台超級計算機提高整體計算性能。為了更好地支持 GB200 超級芯片的應用,英偉達推出了全新的計算集羣 DGX GB200 SuperPod,這一超級計算集羣採用了新型高效液冷機架規模架構,能夠在 FP4 精度下提供驚人的算力和內存容量。通過 DGX GB200 SuperPod,英偉達將為各行各業提供強大的 AI 計算能力,助力 AI 工業革命的發展,再次展現了其在 AI 領域的領先地位和創新能力。

(二)Blackwell 賦能自動駕駛生態,助推車載計算平台成功升級

NVIDIA 集中式車載計算平台 DRIVE Thor 將搭載專為 Transformer、大語言模型(LLM)和生成式 AI 工作負載而打造的全新 Blackwell 架構。性能高達 1000 TFLOPS 的 DRIVE Thor 是專為汽車行業的生成式 AI 應用而打造的車載計算平台。DRIVE Thor 不僅可以提供豐富的座艙功能、安全可靠的高度自動化駕駛和無人駕駛功能,還能將所有功能整合至同一個集中式平台上。目前,已經有多家廠商公佈了這一平台的全新合作進展,比亞迪和英偉達的合作範圍從汽車擴展到雲,除了在 DRIVE Thor 上構建下一代電動汽車車隊外,比亞迪還計劃使用英偉達的 AI 基礎設施進行基於雲的 AI 開發和培訓技術。

數字建模下汽車模型應用如下圖所示:

四、技術競爭格局與未來展望

(一)海外互聯技術競爭激烈,國內華為成為未來之星

大語言互聯模型通常分為兩類,一類稱為總線互聯協議,常見的總線互聯協議包括 NVLink、AMD 的 infinity fabric、PCIe 以及 CXL 聯盟推出的開放式互聯新標準 CXL 等;另一類稱為網絡互聯協議,包括 infiniband、以太網等。

Infinity Fabric 是 AMD 開發的高速互聯技術,被用於連接 AMD 處理器內部的各個核心、緩存和其他組件,以實現高效的數據傳輸和通信。Infinity Fabric 採用了一種分佈式架構,其中包含多個獨立的通道,每個通道都可以進行雙向數據傳輸。這種設計使得不同核心之間可以直接進行快速而低延遲的通信,從而提高了整體性能。此外,Infinity Fabric 還具備可擴展性和靈活性。它允許在不同芯片之間建立連接,並支持將多顆處理器組合成更強大的系統。

PCI Express (PCIe) 是一種高速串行計算機擴展總線標準,由 PCI-SIG 組織發佈,主要用於連接 CPU 與各類高速外圍設備,如 GPU、SSD、網卡、顯卡等。與傳統的 PCI 總線相比,PCIe 採用點對點連接方式,具有更高的性能和可擴展性。伴隨着 AI、自動駕駛、AR/VR 等應用快速發展,計算要求愈來愈高,處理器 I/O 帶寬的需求每三年實現翻番,PCIe 也大致按照 3 年一代的速度更新演進,每一代升級幾乎能夠實現傳輸速率的翻倍,並有着良好的向後兼容性。

Compute Express Link (CXL) 是一項全新的互聯標準,由英特爾、戴爾、惠普、谷歌等業界巨頭共同推動。它旨在提供高帶寬、低延遲的連接,以支持各種加速器、存儲設備和處理器之間的協同工作。CXL 的設計目標是解決數據中心所面臨的性能和可擴展性挑戰,以滿足未來計算需求。CXL 的一個顯著特點是支持內存一致性,這意味着不同設備之間可以共享數據而無需進行復雜的數據複製。這種一致性對於多處理器系統和大規模計算任務尤為重要,因為它能夠提高數據訪問效率,減少延遲,從而加速計算速度。此外,CXL 還具有靈活性,可用於各種設備和應用,使其成為通用的互聯解決方案。目前,CXL 的生態系統仍處於建立的初期,還需要更多硬件供應商、軟件提供商的加入才能形成完整的產業鏈。CXL 的應用案例還比較有限,在數據中心、AI 和網絡領域具有很大的潛力。

CXL 聯盟具體成員名單如下圖所示:

以太網是應用最廣泛最成熟的網絡技術,起源於 Xerox PARC 公司,可在數據中心的服務器之間傳輸大量數據,這對於許多加速計算任務至關重要。RoCE 協議下,以太網融合 RDMA 功能,在高性能計算場景下的通信性能大幅提升。為應對 AI 和 HPC 工作負載提出的新挑戰,網絡巨頭聯合成立了超以太網聯盟(UEC),超以太網解決方案堆棧將利用以太網的普遍性和靈活性處理各種工作負載,同時具有可擴展性和成本效益,為以太網注入了新的活力。

InfiniBand 是一種高速、低延遲互聯技術,由 IBTA(InfiniBand Trade Association)提出,其規定了一整套完整的鏈路層到傳輸層(非傳統 OSI 七層模型的傳輸層,而是位於其之上)規範,擁有高吞吐量和低延遲,擴展性好,通過交換機在節點間的點對點通道進行數據傳輸,通道私有且受保護。

作為國內較早入局 AI 大數據計算的企業,華為也推出了自己的高速互聯技術,提供了高帶寬、低延遲的網絡通信能力,適用於大規模並行計算和數據中心的需要。華為 CloudEngine 系列數據中心交換機提供了高密度的端口和高速的數據交換能力,支持 100Gbps、400Gbps 等速率,以及 RoCE 等 RDMA 技術,確保數據中心內部的高速通信。CloudEngine 16800 系列交換機是華為推出的首款面向 AI 時代的數據中心交換機。內嵌 AI 芯片,承載獨創的 iLossless 智能無損交換算法,對全網流量進行實時的學習訓練,實現網絡 0 丟包與 E2Eμs 級時延,達到最高吞吐量。CloudEngine 16800-X 是華為推出的業界首款面向多元算力的 800GE 數據中心交換機。最多支持 288 個 800GE 端口,支撐業務十年平滑演進,提供業界最優 3.5 微秒跨板轉發時延,網絡級負載均衡實現 90% 高吞吐;依託超融合以太實現通用計算、高性能計算、智能計算和存儲融合承載,TCO 降低 36%。

(二)算力驅動產品更新,應用場景越來越廣泛

NVLink 將繼續發揮重要作用,隨着計算機視覺、人工智能和大數據等領域的不斷發展,對高性能、高吞吐量的數據傳輸需求將持續增長,NVLink 技術有望在更廣泛的應用場景中得到應用,包括數據中心、科學計算、醫療影像等領域。同時,隨着半導體制造工藝的不斷進步,NVLink 技術有望實現更高的帶寬和更低的延遲,進一步提升系統性能和效率,成為連接多個 GPU 或其他處理器的首選技術之一,為大規模並行計算提供強大支持。

此外,隨着物聯網、自動駕駛、虛擬現實等新興技術的快速發展,對處理海量數據和實時計算的需求將變得越來越迫切,NVLink 技術通過其高效的數據傳輸能力有望為這些新興應用提供關鍵支持,助力推動技術創新和產業發展,未來將在高性能計算、人工智能和新興技術應用等領域展現出更加廣闊的發展前景。

文章來源:高華 GH,原文標題:《關於英偉達最新一代的精髓:NVLink、NVL72》