
In-depth exploration of the world's largest AI supercluster xAI Colossus

xAI Colossus 是全球最大的 AI 超級集羣,投資數億美元,配備 10 萬片 NVIDIA H100 GPU,計劃擴展至 20 萬片。該集羣在 122 天內完成部署,具有超過 1500 個機架和 512 個 GPU 的陣列配置。每個服務器支持 9 個 400GbE 網絡連接,總帶寬達到 3.6Tbps,採用超微液冷系統,具備高可維護性。
xAI Colossus 數據中心概況
一、GPU 計算系統
GPU:Colossus 目前部署了 10 萬個 NVIDIA Hopper GPU,並計劃擴展至 20 萬個,其中包括 5 萬個 H100 和 5 萬個 H200。所有 GPU 都集成在 NVIDIA HGX H100 平台上,每個平台包含 8 個 GPU。
機架配置:每個機架可容納 64 個 GPU,8 個機架組成一個陣列,共計 512 個 GPU。Colossus 共有超過 1500 個機架,接近 200 個陣列。
服務器:超微 4U 通用 GPU 液冷系統。服務器內部結構包括:
8-GPU NVIDIA HGX 托盤:採用超微定製液冷模塊,每個托盤包含 8 個 NVIDIA H100 或 Hopper GPU 以及 NVIDIA NVLink 交換機。
CPU 托盤:配備兩個 x86 CPU 液冷塊和一個用於冷卻四個 Broadcom PCIe 交換機的定製液冷塊。
可維護性:超微系統採用可維護托盤設計,無需將整機從機架上移除即可進行維護。每個服務器配備了四個熱插拔電源。
網絡:每個服務器配備 9 個 400GbE 網絡連接,總帶寬達到 3.6Tbps。其中 8 個 NVIDIA BlueField-3 SuperNIC 用於 AI 網絡,另外 1 個 Mellanox ConnectX-7 網卡提供 CPU 端的其他網絡功能。
二、CPU 計算系統
服務器:超微 1U 服務器,每機架 42 台。
CPU:採用高速 x86 CPU,具體型號未知。
網絡:每個服務器配備一個 400GbE 網卡。
散熱:CPU 服務器採用風冷設計,通過機架後部的熱交換器將熱量傳遞到液冷迴路中。
三、存儲系統
規模:EB 級存儲。
介質:NVMe SSD。
服務器:超微 1U 服務器。
特點:為滿足 AI 訓練對存儲容量的巨大需求,Colossus 的存儲主要通過網絡交付,供所有 GPU 和 CPU 服務器訪問。
四、網絡系統
GPU 網絡:
技術:採用 400GbE 以太網,使用 NVIDIA Spectrum-X 網絡解決方案,支持 RDMA 技術。
交換機:NVIDIA Spectrum-X SN5600 以太網交換機,每個交換機擁有 64 個端口,支持高達 800Gb/s 的速度,並可分割成 128 個 400GbE 鏈路。
網卡:NVIDIA BlueField-3 SuperNIC,為每個 GPU 提供專用網絡連接。
存儲網絡:採用 400GbE 以太網,使用 64 端口 800GbE 以太網交換機。
特點:Colossus 的網絡系統採用以太網而非 InfiniBand 等技術,這主要是因為以太網具有更好的可擴展性,能夠滿足 Colossus 龐大的規模需求。GPU 網絡和 CPU 網絡分離,以確保高性能計算集羣的最佳性能。
五、冷卻系統
GPU 服務器:
散熱方式:液冷散熱。
CDU:每個機架底部配備超微 CDU 和冗餘泵系統。
冷卻液循環:冷卻液通過機架分配管道進入每個服務器的分配器,再流經服務器內部的 8-GPU NVIDIA HGX 托盤和 CPU 托盤的液冷塊,最終回到 CDU。
其他:機架中仍保留了風扇系統,用於冷卻內存、電源單元、主板管理控制器、網卡等低功耗組件。
CPU 服務器、網絡設備和存儲系統:風冷散熱,通過機架後部的熱交換器將熱量傳遞到液冷迴路中。熱交換器類似於汽車散熱器,通過風扇將熱空氣抽過散熱片,並將熱量傳遞給循環水。
機房:採用冷水循環系統,CDU 將熱量傳遞到循環水中,熱水在設施外部冷卻後循環利用。龐大的供水管道將冷水引入設施,並循環流經每個機架中的 CDU,吸收熱量後,熱水被引導至設施外部的冷卻設備。
六、電力系統
供電:採用三相電源,每個機架配備多個電源條。
儲能:使用特斯拉 Megapack 電池組作為超級計算機和電網之間的能量緩衝器,每個 Megapack 可存儲高達 3.9MWh 的電能。Megapack 的引入是為了解決 GPU 服務器功耗波動對電網造成的壓力。
七、其他
監控系統:每個機架的 CDU 都有獨立的監控系統,可以監控流量、温度等參數。此外,機架後部配備 LED 指示燈,用於顯示設備狀態,藍色代表正常運行,紅色表示故障。

xAI Colossus 數據中心計算大廳
通過對 xAI Colossus 超級計算機的深度探訪,我們近距離感受到了 xAI 公司在田納西州孟菲斯部署的大規模 AI 算力所帶來的震撼。
這個總投資數億美元、配備十萬片 NVIDIA H100 GPU 的 AI 計算集羣,不僅以其規模令業界矚目,其建設速度更是創下記錄——其團隊僅用 122 天就完成了整個集羣的部署。現在,讓我們一起走進這座設施內部。
xAI 的液冷機架技術
Colossus 計算集羣的核心構建單元是超微(Supermicro)的液冷機架系統。每個機架集成了八台 4U 服務器,單台服務器搭載八片 NVIDIA H100 GPU,使單機架總 GPU 容量達到 64 片。一個完整的 GPU 計算機架由八台 GPU 服務器、一個超微冷卻分配單元(Cooling Distribution Unit, CDU)及配套設備組成。

xAI Colossus 數據中心超微液冷節點低角度
這些機架以八台為一組部署,每組可支持 512 片 GPU,並配備網絡互聯設施,以便在更大規模系統中形成計算子集羣。

xAI Colossus 數據中心超微 4U 通用 GPU 液冷服務器
xAI 採用的是超微的 4U 通用 GPU 系統,這是當前市面上最先進的 AI 計算服務器,其優勢主要體現在兩個方面:領先的液冷技術和卓越的可維護性。

xAI Colossus 數據中心超微 4U 通用 GPU 液冷服務器
這些系統的原型首次亮相於 2023 年超級計算大會(SC23)。由於我們參觀時系統正在執行訓練任務,未能在孟菲斯現場開箱展示。值得一提的是,系統採用了可服務化托盤設計,無需將整機從機架移除即可進行維護。1U 機架分配管道負責為每個系統輸送冷卻液並回收熱液。快速斷開接頭使得液冷系統的拆裝變得簡便,去年我們就演示過單手操作這些接頭的便利性。斷開接頭後,托盤可輕鬆抽出進行維護。

超微 4U 通用 GPU 系統,用於液冷的 NVIDIA HGX H100 和 HGX 200(展示於 SC23)
這些服務器原型的圖片資料,可以展示系統內部結構。除了採用超微定製液冷模塊的 8-GPU NVIDIA HGX 托盤外,CPU 托盤的設計充分展現了行業領先的下一代工程理念。

超微 4U 通用 GPU 系統,用於液冷的 NVIDIA HGX H100 和 HGX 200(展示於 SC23)
SC23 原型中的兩個 x86 CPU 液冷塊相當常見。獨特之處在於右側。超微的主板集成了四個 Broadcom PCIe 交換機,這些交換機幾乎用於當今所有的 HGX AI 服務器,而不是將它們放在單獨的板上。超微然後有一個定製的液冷塊來冷卻這四個 PCIe 交換機。行業中的其他 AI 服務器是先構建,然後將液冷添加到風冷設計中。超微的設計從一開始就是為液冷設計的,並且全部來自一個供應商。

超微 SYS 821GE TNHR,NVIDIA H100 和 NVSwitch 液冷模塊
這可以類比汽車領域:有些電動車是在傳統燃油車底盤上改裝而成,而有些則是原生設計的純電動車。超微的系統屬於後者,而其他 HGX H100 系統則類似前者。我們實際測試過大多數公開的 HGX H100/H200 平台和一些超大規模設計,超微系統的優勢相較其他系統(包括超微自己的其他液冷或風冷設計)顯著可見。
機架後部設有 400GbE 光纖,用於 GPU 和 CPU 組件的互聯,以及用於管理網絡的銅纜。網絡接口卡(Network Interface Card, NIC)採用獨立托盤設計,可在不拆卸機箱的情況下快速更換,安裝位置在機箱後部。每台服務器配備四個熱插拔電源,由三相配電單元(PDU)供電。

xAI Colossus 數據中心超微 4U 通用 GPU 液冷服務器後視圖
機架底部安裝有冷卻分配單元(CDU),這些 CDU 實際上是大型熱交換器。每個機架都有獨立的流體循環系統,為所有 GPU 服務器提供冷卻。這裏使用"流體"而非"水",是因為循環系統需要根據液冷塊、管道、分配器等硬件特性選用特定的冷卻液。

xAI Colossus 數據中心超微 CDU 位於機架底部
每個 CDU 配備冗餘泵和電源,支持單泵故障時在不停機的情況下進行更換。

拆卸超微 CDU 泵
xAI 的機架功能豐富,在 2023 年的相關視頻中,我們詳細展示了超微 CDU 的結構,包括機房水路和機架分配管道的進出水接口,以及每個 CDU 的熱插拔冗餘電源。

超微 CDU 2023 後視圖
Colossus 機架中的 CDU 被各種管線和線纜遮擋着。

xAI Colossus 數據中心超微 CDU 後視圖
機架兩側配備三相 PDU 和機架分配管道。前置的 1U 分配管道為 4U 通用 GPU 系統供液,該分配管道則由連接 CDU 的機架分配管道供給。所有組件採用紅藍配色標識,紅色表示熱流體迴路,藍色表示冷流體供給。

xAI Colossus 數據中心超微機架分配器軟管
機架中仍保留了風扇系統,用於冷卻內存(DIMM)、電源單元、主板管理控制器(BMC)、網卡等低功耗組件。在 Colossus 中,每個機架需要保持冷卻平衡,避免使用大功率空氣處理設備。服務器風扇從前部吸入冷空氣,從後部排出,隨後經過後門熱交換器處理。

xAI 數據中心參觀後門熱交換器
後門熱交換器的原理類似汽車散熱器,將機架排出的熱空氣通過帶散熱片的熱交換器處理。熱交換器中的流體可將熱量轉移至機房水路系統。空氣通過設備後部的風扇抽入。這些設備具有 LED 指示功能,正常運行時顯示藍光,需要維護時會轉為其他顏色(如紅色)。
在施工現場參觀時,雖然我沒有開啓幾台機架,但看到這些熱交換器在機架上線時呈現出不同的顏色變化,還是覺得非常有意思。

xAI 數據中心參觀後門熱交換器
這些後門熱交換器在數據中心中扮演着雙重角色:不僅處理超微液冷 GPU 服務器的餘熱,還可以處理存儲系統、CPU 計算集羣和網絡設備產生的熱量。
xAI 的存儲系統
在典型的 AI 計算集羣中,大型存儲陣列是標配。在此項目中,雖然運行着來自不同廠商的存儲軟件,但絕大部分存儲服務器硬件均由超微提供。這很好理解,因為超微是多家存儲設備供應商的 OEM。

xAI Colossus 數據中心超微 1U NVMe 存儲節點
實地考察時一個引人注目的細節是,部分存儲服務器的外觀與 CPU 計算服務器極為相似。

xAI Colossus 數據中心超微 1U NVMe 存儲節點
從我們的圖片和視頻記錄可以看到大量 2.5 英寸 NVMe 硬盤托架。大規模 AI 計算集羣正在經歷從機械硬盤存儲向閃存存儲(SSD)的轉型。閃存存儲不僅能顯著降低能耗,還能提供更高的性能和存儲密度。雖然每 PB 閃存的初始投入較高,但從 TCO 角度來看,在此規模的集羣中,閃存通常是更具經濟效益的選擇。
xAI 的 CPU 計算系統
在大規模計算集羣中,傳統 CPU 計算節點依然佔據重要位置。相比 GPU,CPU 在數據處理和操作任務方面仍具獨特優勢。此外,將 GPU 資源專注於 AI 訓練或推理(Training/Inference)工作負載,而由 CPU 承擔其他計算任務,是一種更為高效的資源分配策略。

xAI Colossus 數據中心 CPU 計算機架
在項目現場,我們看到了整排的 1U 服務器。每台服務器的設計都在計算密度和散熱需求之間達到了精妙的平衡。以機箱正面為例,約三分之一的面板用於冷空氣進氣,其餘部分則佈置了帶有橙色標識的 NVMe 硬盤托架。

xAI Colossus 數據中心 CPU 計算機架
這些 1U 計算服務器採用風冷設計,通過後門熱交換器(Rear Door Heat Exchanger)將熱量轉移至機房水冷系統(Facility Water Loop)。這種設計使得 xAI 能夠在同一數據中心基礎設施中,同時兼容液冷和風冷設備的散熱需求。
xAI 的網絡
網絡是此項目最為引人關注的部分之一。雖然基礎技術仍是以太網(Ethernet),與普通電腦使用的網絡協議相同,但這裏採用的是 400GbE 網絡,其傳輸速率是常見 1GbE 網絡的 400 倍。每個系統配備九個這樣的連接,使單台 GPU 計算服務器的總帶寬達到驚人的 3.6Tbps。

xAI Colossus 數據中心網卡(NIC)
GPU 的數據傳輸主要依賴於 RDMA 網絡。每個 GPU 都配備專用網卡,項目採用 NVIDIA BlueField-3 SuperNIC 和 Spectrum-X 網絡解決方案。NVIDIA 的網絡技術棧具有獨特優勢,能確保數據在集羣內高效精準地傳輸。

xAI Colossus 數據中心交換機光纖
值得注意的是,與多數採用 InfiniBand 等技術的超級計算機不同,此項目選擇了以太網。這一選擇極具戰略意義——以太網作為互聯網的基礎協議,具有卓越的可擴展性。當今規模龐大的 AI 集羣已經超出了許多複雜專有技術的覆蓋範圍,xAI 團隊在這方面做出了富有遠見的嘗試。
除 GPU 的 RDMA 網絡外,CPU 系統也配備了獨立的 400GbE 網絡,使用完全不同的交換架構。這種 GPU 網絡與普通集羣網絡分離的設計,是高性能計算(HPC)集羣中的最佳實踐。

xAI Colossus 數據中心單模和多模光纖
為了直觀理解 400GbE 的性能,單條鏈路的帶寬就超過了 2021 年初發布的頂級 Intel Xeon 服務器處理器的全部 PCIe 通道總和,而每台服務器配備了九條這樣的連接。

xAI Colossus 數據中心交換機堆疊
如此密集的網絡互聯需要大量光纖佈線。每條光纖都經過精確切割、端接處理和標識管理。

xAI Colossus 數據中心光纖佈線
我 8 月份遇到了一些從事這項工作的人員。他們的結構化佈線總是做得非常整潔。

xAI Colossus 數據中心光纖佈線
除高速集羣網絡外,設施還部署了用於管理接口和環境設備的低速網絡,這是大規模集羣的必備組成部分。
在實地考察中,液冷網絡交換機的需求顯而易見。我們最近評測的 64 端口 800GbE 交換機,其性能與多數 AI 集羣使用的 51.2T 級交換機相當。行業面臨的挑戰是如何同時解決交換芯片和光學組件的散熱問題,後者在現代交換機中的功耗往往更高。這樣規模的部署或許能推動協同封裝光學(Co-packaged Optics)技術的發展,使交換機冷卻能與液冷計算系統完美集成。我們此前見過液冷協同封裝光學交換機的原型展示,期待本次部署能促進這些技術從實驗走向量產。
xAI Colossus 的機房設施
由於我們採用液冷的 AI 服務器機架,電力和設施用水對於安裝至關重要。這裏展示了龐大的供水管道,分為冷水和熱水兩組。冷水被引入設施,並循環流經每個機架中的冷卻液分配單元(CDU)。熱量從 GPU 和後門熱交換器迴路傳遞至 CDU 的設施用水迴路。熱水隨後被引導至設施外部的冷卻設備。值得注意的是,這些冷卻設備並非用於製冰,而是旨在將水温降低至足以再次循環利用的程度。

xAI Colossus 數據中心設施用水管道
電力系統同樣引人注目。在我們孟菲斯之行中,目睹了團隊將巨大的電纜搬入到位。

xAI Colossus 數據中心的電氣基礎設施
在機房設施外,我們看到了裝載特斯拉 Megapack 的集裝箱。這是團隊在建設這個龐大集羣過程中的一項重要發現。AI 服務器的電力消耗並非恆定,而是會隨工作負載的波動而變化。由於現場部署了大量 GPU,電力峯谷現象十分明顯。團隊發現,毫秒級的電力峯值和低谷對系統造成了顯著壓力,因此引入特斯拉 Megapack 以緩衝電力峯值,從而提高系統的穩定性。

準備在 xAI Colossus 安裝的特斯拉 Megapack
當然,這僅僅是設施建設的開始。儘管在我們訪問時,四個 25,000 GPU 數據中心的初始集羣已投入使用,能夠支持約 100,000 個 GPU,但集羣的擴展工作正在快速推進。

在孟菲斯 xAI Colossus 數據中心的外部
這無疑是一個令人振奮的開端。
總結
在這個過程中,我深刻體會到,xAI 團隊在協調眾多供應商方面付出了巨大努力。如此龐大的 AI 集羣的建成,離不開各領域專家的通力合作,他們以令人難以置信的速度共同創造了一個奇蹟。如果僅從我拍攝視頻的那天所見,很難想象背後凝聚了如此多的心血。
AI 社區普遍認為,隨着計算能力的不斷提升,大語言模型(LLMs)的潛力將遠不止於聊天機器人。漫步在 Colossus 中,我深切感受到,只有當人們看到了數據驅動的巨大價值,才會投入如此巨大的資源進行建設。Grok 和 xAI 團隊的未來無疑將超越簡單的聊天機器人。眾多才智之士正傾注大量心血和財力,力爭儘快實現這一願景。
