
Llama-3 公佈基礎訓練設施,使用 49000 個 H100

Llama-3 公佈基礎訓練設施,使用 49000 個 H100。Meta 在官網公佈了兩個全新的 24K H100 GPU 集羣,用於訓練大模型 Llama-3。預計到 2024 年底,Meta 將擁有 600,000 個 H100 的算力。Meta 作為全球市值最高的科技公司之一,致力於構建通用人工智能。Meta 每天處理數百萬億次 AI 模型的請求,需要高效、靈活的網絡來保證數據中心的安全和穩定運行。
從訓練進度來看,估計 Llama-3 最快將於 4 月末或 5 月中旬上線。受 Sora 影響,很可能是一個多模態模型,並且會繼續開源。
3 月 13 日,社交、科技巨頭 Meta 在官網公佈了兩個全新的 24K H100 GPU 集羣(49,152 個),專門用於訓練大模型 Llama-3。
此外,Llama-3 使用了 RoCEv2 網絡,基於 Tectonic/Hammerspace 的 NFS/FUSE 網絡存儲,繼續使用了 PyTorch 機器學習庫。
從訓練進度來看,估計 Llama-3 最快將於 4 月末或 5 月中旬上線。受 Sora 影響,很可能是一個多模態模型,並且會繼續開源。
Meta 表示,預計到 2024 年底,將擁有 600,000 個 H100 的算力。
Meta 龐大的 AI 算力集羣
Meta 作為全球市值最高的科技公司之一,對 AI 的投入一直非常大,致力於構建造福全人類的 AGI(通用人工智能)。
早在 2022 年 1 月 24 日,Meta 首次公佈了 AI 研究超級集羣 (RSC) 的詳細信息,擁有 16,000 個英偉達 A100 GPU。
該集羣在開發全球最受歡迎的類 ChatGPT 模型 Llama 和 Llama 2,以及計算機視覺、NLP 和語音識別、圖像生成等發揮了重要作用。

本次新增的 GPU 集羣建立在 RSC 成功經驗之上,每個集羣包含 24,576 個 H100 GPU,能夠支持比以往更復雜、參數更高的大模型訓練。
集羣網絡
Meta 每天要處理數百萬億次 AI 模型的請求,所以,使用一個高效、靈活的網絡才能保證數據中心安全、穩定的運行。
一個集羣是基於 Arista7800、Wedge400 和 Minipack2 OCP 機架交換機,構建了一個具有融合以太網遠程直接內存訪問 (RoCE) 網絡結構的解決方案;
另外一個使用了 NVIDIA Quantum2 InfiniBand 結構,這兩種方案都能互連 400 Gbps 端點。

在兩個不同集羣幫助下,Meta 可以評估不同類型的互聯對大規模訓練的適用性和可擴展性,為以後設計和構建更大、更大規模的集羣提供更多經驗。
此外,Meta 已經成功地將 RoCE 和 InfiniBand 集羣用於大型生成式 AI 工作負載(包括正在 RoCE 集羣上對 Llama 3 進行的訓練),並且沒有出現任何網絡瓶頸。
硬件平台
新增的兩個集羣全部使用 Grand Teton,這是 Meta 內部設計的開放性 GPU 硬件平台,於 2022 年 10 月 18 日首次發佈。

Grand Teton 建立在多代人工智能系統的基礎上,將電源、控制、計算和結構接口集成到一個機箱中,以獲得更好的整體性能、信號完整性和散熱性能。具有簡化的設計、靈活性,可快速部署到數據中心機羣中,並易於維護和擴展等優點。
數據存儲
隨着大模型的功能趨於多模特,需要消耗大量的圖像、視頻、音頻和文本數據,所以,對數據存儲的需求迅速增長。
Meta 新集羣的存儲部署通過自創的用户空間 Linux 文件系統 API 來滿足人工智能集羣的數據和檢查點需求,該應用程序接口由 Meta 針對閃存媒體進行了優化的 Tectonic 分佈式存儲解決方案版本提供支持。
該解決方案使數千個 GPU 能夠以同步方式保存和加載檢查點(這對任何存儲解決方案來説都是一個挑戰),同時還提供了數據加載所需的靈活、高吞吐量的外字節級存儲。

Meta 還與 Hammerspace 合作,共同開發、部署並行網絡文件系統 (NFS),以滿足開發人員對超級 AI 集羣的存儲要求。
此外,Hammerspace 還能讓工程師使用數千個 GPU 對作業進行交互式調試,因為環境中的所有節點都能立即訪問代碼更改。
將 Meta 的 Tectonic 分佈式存儲解決方案和 Hammerspace 結合在一起,可以在不影響規模的情況下實現快速功能迭代。
文章來源:AIGC 開放社區,原文標題:《Llama-3 公佈基礎訓練設施,使用 49,000 個 H100》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
