Meta 用 35 萬個 H100,打造超級軍火庫

華爾街見聞
2024.03.14 05:52
portai
I'm PortAI, I can summarize articles.

Meta 通過引入 35 萬個 H100 GPU 系統,投資額高達 125 億美元,構建 50 萬個 H100 GPU 池,用於訓練大型語言模型,支持更大、更復雜的模型。這表明 Meta 正在積極投資於人工智能領域,加強其人工智能技術能力。

如果您每天處理數百萬億個 AI 模型執行,並且隨着 GenAI 成為主流而將其改變一兩個數量級,那麼您將需要 GPU,很多 GPU。顯然,Meta Platforms 確實這麼做了,它拿出了又大又厚的支票簿,向 Nvidia 寫了一個小數點左側有很多數字的數字。

早在 1 月份,社交網絡和人工智能創新者 Meta Platforms 的首席執行官馬克·扎克伯格 (Mark Zuckerberg) 在 Instagram 帖子中公佈了一些數字,顯示該公司今年將在 GPU 加速器上進行大規模投資,其中包括高達 35 萬個 Nvidia “Hopper” H100 GPU 以及其他設備——該公司追求通用人工智能(AGI)。

你知道,思考機器。

當時,扎克伯格表示,到 2024 年底,Meta Platforms 將擁有一批加速器,其性能 “如果算上其他 GPU,則相當於 “近 600,000 個 H100 的計算能力”。

現在,Meta Platforms 內部的技術人員通過各種 ODM 合作伙伴將這些 GPU 引入系統,他們發佈了一份聲明,描述了服務器、網絡和存儲,這些服務器、網絡和存儲將用於訓練 Llama 3 大型語言模型以供生產使用,並構建駱馬家族中更強大且很可能更大的繼承者。

讓我們先討論這些 GPU 等效數字,然後看看 Facebook 在通過 Llama 3 追求 AGI 並在其 Facebook AI 研究和生成 AI 實驗室中研究我們假設的 Llama 4 和 Llama 5 時,在構建基礎設施時做出了哪些選擇。

我們不知道 2022 年,當 GenAI 的情況開始變得有趣時,Meta Platforms 的機羣中有多少 GPU。2017 年,Meta Platforms(因其創立和主導的社交網絡應用程序而被稱為 Facebook)使用 22,000 個 “Volta” V100 GPU 構建了第一代人工智能集羣。

2022 年 1 月,當 GenAI 熱潮剛剛開始時,Meta Platforms 從 Nvidia 購買了基於 DGX 服務器設計和 200 Gb/秒 InfiniBand 的 Research Super Cluster(簡稱 RSC),並計劃帶來 2,000 個節點,總共 16,000 個 GPU 承擔 AI 工作負載。我們在此報道的 RSC 機器的第一階段使用了 6,080 個 Nvidia 的 “Ampere” A100 系列 GPU 加速器,並於 2022 年 10 月啓動並運行。2023 年 5 月,RSC 建設完成,並且尚未完成然後發貨 “Hopper” H100 GPU,但還有另外 9,920 個 A100 GPU 加速器。所有節點都在基於 200 Gb/秒 InfiniBand 網絡的兩層 Clos 拓撲中相互連接。

根據我們在此報道的 Omdia 的一份報告,Meta Platforms 計劃在 2023 年的 Nvidia 分配中獲得 150,000 個 H100 GPU。我們假設這些 H100 GPU 被放入基於 Meta Platforms 推出的 “Grand Teton” 系統的集羣中。我們最近在 Broadcom PCI-Express 交換機報道中對此進行了更多討論,這些交換機用於複用從 Grand Teton 機器中的 GPU 到 CPU 的連接。

基於所有這些,我們認為 2024 年即將結束時,Meta Platforms GPU 羣將如下所示:

我們意識到有很多猜測可以填補這裏的空白。

讓我們考慮幾件事。如果 Omdia 關於 2023 年 H100 分配給 Meta 平台的數據是正確的,那麼 2023 年和 2024 年 H100 分配給元平台的總和將足以構建 20 個具有 24,576 個 GPU 的集羣,這是該公司談論的兩台機器的規模。

隨着今年有 350,000 個 H100 進入 Meta 平台,有一點是明確的:無論 “Blackwell” B100 和 B200 GPU 加速器是什麼,Meta 都不會等待它們開始為 AGI 構建基礎。這並不意味着 Meta Platforms 今年不會配備 Blackwell GPU。

如果我們猜測並假設社交網絡擁有大約 40,000 個傳統 GPU(我們認為主要是 V100),加上 RSC 之前的第一代超級計算機中的 22,000 個 V100,然後根據 FP16 乘法和 FP32 將這些調整為 H100 等效項如果在 V100 GPU 上的張量核心上進行累積(這是計算 Nvidia GPU 相對性能的最慷慨方法,該性能仍然在一定程度上代表了 AI 工作負載),那麼由 62,000 個 GPU 組成的 V100 隊列僅相當於 3,875 個 H100。我們認為,以當時的普遍價格購買這些 GPU 的成本約為 6.2 億美元。Meta 可能會得到一些折扣,但也可能不會。

我們認為 Meta Platforms 機羣中可能有 76,000 台 A100,相當於 23,700 台 H100,僅 GPU 方面的投資就達 11 億美元。如果 A100 隊列確實看起來像我們預期的那樣,那麼它在張量核心上以 FP16 分辨率具有超過 47 exaflops 的聚合性能(在優化中包含稀疏性支持),這是聚合計算的 6.1 倍,而成本卻低於多 2 倍的錢。

在 Meta Platforms 上構建的龐大 500,000 個 H100 GPU 池代表了一個數量級的投資——如果你計算一下,僅 GPU 的成本就達到 125 億美元——11 倍——而在 FP16 的 1,000 exaflops 下,這是 21.1 X 性能提升。FP16 單位 oomph 的成本減少了一半,如果 Meta Platforms 在其模型中使用 FP8 數據(這是已被提及的事情之一),那麼相對性能可以提高 2 倍,並且相對爆炸降壓也提高了很多。

順便説一句,我們假設 Meta Platforms 僅談論其訓練隊列,但也許這是該 GPU 隊列中訓練和推理的混合體。Meta Platforms 發佈的博客沒有對此進行解釋。最終,該機羣將包括本土的 MTIA 設備。

無論如何,我們認為今年 Meta 預算中有 24,000 台 Blackwell B100 或 B200 的空間,如果 Nvidia 甚至可以將這麼多設備分配給 Meta,我們不會對構建這樣一個集羣感到驚訝。或者這可能是 Nvidia 的 Blackwell 設備和 AMD 的 “Antares” Instinct MI300X 設備的組合。

事實上,Meta Platforms 正在談論的兩個新集羣之一基於 400 Gb/秒 InfiniBand 網絡,這一點很有趣,因為 Meta Platforms 是超以太網聯盟的支持者之一,並且非常明確地表示希望以太網能夠在某些方面表現得更像 InfiniBand,並且正在努力實現這一目標。

“我們新的人工智能集羣建立在 RSC 的成功和經驗教訓的基礎上,” 負責 Meta Platforms 基礎設施各個方面的 Kevin Lee、Adi Gangidi 和 Mathew Oldham 寫道。“我們專注於構建端到端人工智能系統,重點關注研究人員和開發人員的經驗和生產力。這些集羣中高性能網絡結構的效率、一些關鍵存儲決策,再加上每個集羣中的 24,576 個 Nvidia Tensor Core H100 GPU,使兩個集羣版本都能夠支持比集羣中可支持的模型更大、更復雜的模型。RSC 併為 GenAI 產品開發和人工智能研究的進步鋪平道路。”

該公司重申了對其開源 Grand Teton 服務器設計和用於容納這些機器的 OpenRack 機箱以及開源 PyTorch 框架和開源 Llama LLM 的承諾。

如果您對 24,576 個 GPU 進行計算,會發現上圖中系統中的每個機架中只有兩個 Grand Teton 系統,這意味着 Meta Platforms 在其博客中引用的兩個集羣各自在 1,536 個機架中擁有 3,072 個節點,這意味着這表明該公司尚未轉向液體冷卻。我們看到的液體冷卻設計可以將四台 GPU 機器放在一個機架中。這可能與 Meta Platforms 在機架之間分配網絡的方式有關。

有 Wedge 400C 和 Minipack2 網絡機櫃,由 Arista Networks 按照 OCP 規範構建,如上圖所示,這顯然是針對以太網交換基礎設施的。這些集羣的 InfiniBand 和以太網版本都有 8 個連接 GPU 服務器的 400 Gb/秒端口,每個 GPU 一個。

“通過這兩者,我們能夠評估這些不同類型的互連對於大規模訓練的適用性和可擴展性,為我們提供更多見解,幫助我們瞭解未來如何設計和構建更大的、擴大規模的集羣, ” Meta 技術人員寫道。“通過對網絡、軟件和模型架構的仔細協同設計,我們成功地將 RoCE 和 InfiniBand 集羣用於大型 GenAI 工作負載(包括我們在 RoCE 集羣上持續訓練 Llama 3),沒有任何網絡瓶頸。”

這些 GPU 集羣使用的存儲服務器將基於使用 E1.S SSD 閃存模塊的 “Sierra Point” Yosemite V3 服務器。Meta Platforms 在用户空間 (FUSE) 中擁有一個自行開發的 Linux 文件系統,該系統將在這些 Sierra Forrest 存儲服務器上運行,並且它們將由該公司自己的閃存 Tectonic 存儲覆蓋層進行備份 – 它的 Haystack 文件系統針對磁盤驅動器進行了優化 –以及與 Hammerspace 共同開發的分佈式 NFS 文件系統。

構建 Meta 的 GenAI 基礎設施

引領人工智能發展意味着引領硬件基礎設施投資。硬件基礎設施在人工智能的未來中發揮着重要作用。今天,我們在 Meta 上分享了 24,576-GPU 數據中心規模集羣的兩個版本的詳細信息。這些集羣支持我們當前和下一代的 AI 模型,包括 Llama 3(Llama 2 的後繼者)、我們公開發布的 LLM,以及跨 GenAI 和其他領域的 AI 研發。

Meta 的長期願景是構建開放且負責任的通用人工智能 (AGI),以便讓每個人都能廣泛使用並從中受益。在我們致力於通用人工智能的同時,我們還致力於擴展我們的集羣以實現這一目標。我們在 AGI 方面取得的進展為我們的應用程序系列創造了新產品、新的人工智能功能,以及新的以人工智能為中心的計算設備。

雖然我們在構建 AI 基礎設施方面有着悠久的歷史,但我們於 2022 年首次分享了有關 AI 研究超級集羣 (RSC) 的詳細信息,該集羣配備 16,000 個 NVIDIA A100 GPU。RSC 幫助我們構建了第一個 AI 研究超級集羣,加速了我們開放和負責任的 AI 研究生成先進的人工智能模型。它在 Llama 和 Llama 2 的開發以及從計算機視覺、NLP、語音識別到圖像生成甚至編碼等應用的高級 AI 模型的開發中發揮了並將繼續發揮重要作用。

我們新的人工智能集羣建立在 RSC 的成功和經驗教訓的基礎上。我們專注於構建端到端人工智能系統,重點關注研究人員和開發人員的經驗和生產力。這些集羣中高性能網絡結構的效率、一些關鍵存儲決策,再加上每個集羣中的 24,576 個 NVIDIA Tensor Core H100 GPU,使得兩個集羣版本都能夠支持比集羣中可支持的模型更大、更復雜的模型。RSC 併為 GenAI 產品開發和人工智能研究的進步鋪平道路。

1 網絡

在 Meta,我們每天處理數百萬億個人工智能模型執行。大規模提供這些服務需要高度先進且靈活的基礎設施。定製設計我們自己的大部分硬件、軟件和網絡結構,使我們能夠優化人工智能研究人員的端到端體驗,同時確保我們的數據中心高效運行。

考慮到這一點,我們基於 Arista 7800 以及 Wedge400 和 Minipack2 OCP 機架交換機構建了一個具有融合以太網遠程直接內存訪問 (RDMA) (RoCE) 網絡結構解決方案的集羣。另一個集羣採用 NVIDIA Quantum2 InfiniBand 結構。這兩種解決方案都互連 400 Gbps 端點。有了這兩者,我們就能夠評估這些不同類型的互連對於大規模訓練的適用性和可擴展性,為我們提供更多見解,幫助我們瞭解未來如何設計和構建更大的、擴大規模的集羣。通過對網絡、軟件和模型架構的仔細協同設計,我們成功地將 RoCE 和 InfiniBand 集羣用於大型 GenAI 工作負載(包括我們在 RoCE 集羣上持續訓練 Llama 3),而沒有任何網絡瓶頸。

2 計算

這兩個集羣都是使用 Grand Teton 構建的,這是我們內部設計的開放 GPU 硬件平台,我們已將其貢獻給開放計算項目 (OCP)。Grand Teton 以多代人工智能系統為基礎,將電源、控制、計算和結構接口集成到單個機箱中,以實現更好的整體性能、信號完整性和熱性能。它以簡化的設計提供快速的可擴展性和靈活性,使其能夠快速部署到數據中心隊列中並輕鬆維護和擴展。與 Open Rack 電源和機架架構等其他內部創新相結合,Grand Teton 使我們能夠以專為 Meta 當前和未來應用程序構建的方式構建新集羣。

從 2015 年的 Big Sur 平台開始,我們一直在公開設計 GPU 硬件平台。

3 存儲

存儲在人工智能訓練中發揮着重要作用,但卻是最少被談論的方面之一。隨着時間的推移,GenAI 訓練工作變得更加多模式,消耗大量圖像、視頻和文本數據,對數據存儲的需求迅速增長。然而,將所有數據存儲放入高性能且節能的空間中的需求並沒有消失,這使得問題變得更加有趣。

我們的存儲部署通過用户空間中的本地 Linux 文件系統 (FUSE) API 來滿足 AI 集羣的數據和檢查點需求,該 API 由針對 Flash 媒體優化的 Meta 的 “Tectonic” 分佈式存儲解決方案版本提供支持。該解決方案使數千個 GPU 能夠以同步方式保存和加載檢查點(對任何存儲解決方案來説都是一個挑戰),同時還提供數據加載所需的靈活且高吞吐量的 EB 級存儲。

我們還與 Hammerspace 合作,共同開發並落地並行網絡文件系統(NFS)部署,以滿足該 AI 集羣的開發者體驗要求。除了其他優勢之外,Hammerspace 還使工程師能夠使用數千個 GPU 對作業執行交互式調試,因為環境中的所有節點都可以立即訪問代碼更改。當配對在一起時,我們的 Tectonic 分佈式存儲解決方案和 Hammerspace 的組合可實現快速迭代速度,而不會影響規模。

我們的 GenAI 集羣中的存儲部署(均由 Tectonic 和 Hammerspace 支持)基於 YV3 Sierra Point 服務器平台,並使用我們目前可以在市場上購買的最新高容量 E1.S SSD 進行升級。除了更高的 SSD 容量之外,每個機架的服務器都經過定製,以實現每個服務器的吞吐能力、機架數量減少和相關電源效率之間的適當平衡。利用 OCP 服務器作為樂高積木,我們的存儲層能夠靈活地擴展以滿足該集羣以及未來更大的 AI 集羣的未來需求,同時對日常基礎設施維護操作具有容錯能力。

4 表現

我們構建大規模人工智能集羣的原則之一是同時最大限度地提高性能和易用性,同時又不犧牲其中之一。這是創建一流人工智能模型的重要原則。

當我們突破人工智能系統的極限時,測試擴展設計能力的最佳方法就是簡單地構建一個系統,優化它,然後實際測試它(雖然模擬器有幫助,但也只能到此為止)。在這次設計之旅中,我們比較了小型集羣和大型集羣的性能,以瞭解瓶頸所在。下圖中顯示了當大量 GPU 以預期最高性能的消息大小相互通信時,AllGather 集體性能(以 0-100 範圍內的標準化帶寬表示)。

與優化的小型集羣性能相比,我們大型集羣的開箱即用性能最初很差且不一致。為了解決這個問題,我們對內部作業調度程序通過網絡拓撲感知來調度作業的方式進行了一些更改,這帶來了延遲優勢並最大限度地減少了流向網絡上層的流量。我們還結合 NVIDIA Collective Communications Library (NCCL) 更改優化了網絡路由策略,以實現最佳的網絡利用率。這有助於推動我們的大型集羣與小型集羣一樣實現出色的預期性能。

從圖中我們可以看到,小型集羣性能(整體通信帶寬和利用率)開箱即達到 90%+,但未經優化的大型集羣性能利用率非常低,從 10% 到 90% 不等。在我們優化整個系統(軟件、網絡等)後,我們看到大型集羣性能恢復到理想的 90%+ 範圍。

除了針對我們內部基礎設施的軟件更改之外,我們還與編寫培訓框架和模型的團隊密切合作,以適應我們不斷發展的基礎設施。例如,NVIDIA H100 GPU 開啓了利用 8 位浮點 (FP8) 等新數據類型進行訓練的可能性。充分利用更大的集羣需要對額外的並行化技術和新的存儲解決方案進行投資,這提供了在數千個級別上高度優化檢查點以在數百毫秒內運行的機會。

我們還認識到可調試性是大規模訓練的主要挑戰之一。大規模識別導致整個訓練作業停滯的有問題的 GPU 變得非常困難。我們正在構建諸如異步調試或分佈式集體飛行記錄器之類的工具,以公開分佈式訓練的細節,並幫助以更快、更簡單的方式識別問題。

最後,我們將繼續發展 PyTorch(為我們的 AI 工作負載提供支持的基礎 AI 框架),使其為數十甚至數百個 GPU 訓練做好準備。我們已經確定了進程組初始化的多個瓶頸,並將啓動時間從有時幾小時縮短到幾分鐘。

Meta 始終致力於人工智能軟件和硬件的開放創新。我們相信開源硬件和軟件將永遠是幫助行業大規模解決問題的寶貴工具。

今天,作為 OCP 的創始成員,我們繼續支持開放硬件創新,向 OCP 社區提供 Grand Teton 和 Open Rack 等設計。我們還繼續成為 PyTorch 的最大和主要貢獻者,PyTorch 是為整個行業提供動力的人工智能軟件框架。

我們還繼續致力於人工智能研究社區的開放式創新。我們推出了開放創新人工智能研究社區,這是一個面向學術研究人員的合作伙伴計劃,旨在加深我們對如何負責任地開發和共享人工智能技術的理解——特別關注法學碩士。

對於 Meta 來説,開放的人工智能方法並不新鮮。我們還成立了人工智能聯盟,這是一個由人工智能行業領先組織組成的團體,致力於在開放社區內加速人工智能領域的負責任創新。我們的人工智能工作建立在開放科學和交叉合作的理念之上。開放的生態系統為人工智能開發帶來透明度、審查和信任,並帶來讓每個人都能從中受益的創新,而這些創新是在以安全和責任為首要考慮的基礎上構建的。

這兩個人工智能訓練集羣設計是我們人工智能未來更大路線圖的一部分。到 2024 年底,我們的目標是繼續擴大基礎設施建設,其中包括 350,000 個 NVIDIA H100,作為其產品組合的一部分,其計算能力將相當於近 600,000 個 H100。

當我們展望未來時,我們認識到昨天或今天有效的方法可能不足以滿足明天的需求。這就是為什麼我們不斷評估和改進基礎設施的各個方面,從物理層和虛擬層到軟件層等。我們的目標是創建靈活可靠的系統來支持快速發展的新模型和研究。

半導體行業觀察,原文標題:《Meta 用 35 萬個 H100,打造超級軍火庫》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。