
New Breakthrough in Cloud Computing Competition: Record-breaking NVIDIA GB200 Participates in MLPerf Test, Performance Boost Exceeds Twofold

本輪測量推理吞吐量的 MLPerf Inference v5.0 測試中,CoreWeave、英偉達和 IBM 使用 2496 塊 GB200 Blackwell 芯片,構成 MLPerf 基準測試中規模最大的英偉達 GB200 NVL72 集羣。在基準測試套件中最大、最複雜的 Llama 3.1 405B 基礎模型訓練中,該集羣僅用 27.3 分鐘就完成整個流程,相比相似規模集羣測試提交結果,訓練性能提升超過兩倍。
一場關於算力基礎設施的較量正在雲端悄然展開——人工智能(AI)基礎設施供應商 CoreWeave 聯手英偉達和 IBM,剛剛交出了 MLPerf 史上最大規模的 MLPerf Training v5.0 測試結果,也是動用最多英偉達 GB200 超級芯片的 MLPerf 基準測試成績。
美東時間 6 月 4 日週三,CoreWeave 公佈,此次聯手英偉達和 IBM 的測試中,使用了 2496 塊 GB200 Grace Blackwell 超級芯片,運行 CoreWeave 的 AI 優化雲平台,凸顯了 CoreWeave 雲平台的規模之大,以及 CoreWeave 對當今嚴苛 AI 工作負載的充分準備。
CoreWeave 稱,此次測試中構成了迄今為止在 MLPerf 基準測試中規模最大的英偉達 GB200 NVL72 集羣,這一規模比之前唯一來自雲服務商的提交結果大 34 倍。
而且,在基準測試套件中規模最大、最複雜的 Llama 3.1 405B 基礎模型訓練中,上述 GB200 NVL72 集羣僅用 27.3 分鐘就完成了整個流程。相比其他參與測試者提交的相似規模集羣測試結果,CoreWeave 的英偉達 GB200 集羣將訓練性能提升超過兩倍。
CoreWeave 認為,這一結果凸顯了 GB200 NVL72 架構帶來的顯著性能飛躍,也體現了,在提供一致且一流的 AI 工作負載性能方面,CoreWeave 基礎架構擁有強大實力。
CoreWeave 的首席技術官兼聯合創始人 Peter Salanki 表示:"AI 實驗室和企業選擇 CoreWeave,是因為我們提供專門構建的雲平台,具備他們工作負載所需的規模、性能和可靠性。"
MLPerf Training v5.0 測試採用訓練套件中最大模型 行業參與度創新高
MLPerf Inference 基準套件於 2019 年首次推出,此後不斷更新新的模型和場景,以此確保它仍然是衡量 AI 計算平台推理性能的有用工具。MLPerf Inference v5.0 是目前最新的版本,可測量一系列不同模型和用例的推理吞吐量。
本週三,開放式產業聯盟 MLCommons 發佈了 MLPerf Training v5.0 基準測試結果,展現了 AI 領域的快速增長和演進。本輪測試包含創紀錄的提交總數,大部分基準測試的提交數量相比 v4.1 版本都有所增加。
MLCommons 稱,MLPerf Training v5.0 此次引入了新的 Llama 3.1 405B 大語言模型(LLM)預訓練基準測試,它是訓練基準測試套件中引入的最大模型,替代了之前版本中基於 GPT3 的基準。
MLCommons 稱,雖然剛剛納入測試,但 Llama 3.1 405B 基準測試收到的提交數量已經超過了前幾輪基於 GPT3 的測試,顯示出大規模訓練的受歡迎程度和重要性。
MLCommons 披露,本輪 MLPerf Training v5.0 測試收到來自 20 個提交機構的 201 項性能測試結果,創紀錄的超過 200 項提交結果顯示,行業參與度創新高。延續自上一輪的絕大部分單項基準測試的提交數量都有所增加。
按英文名稱頭字母順序排序,本輪 MLPerf Training v5.0 測試的參與機構包括 AMD、華碩、思科、CoreWeave、戴爾科技、GigaComputing、谷歌雲、惠與、IBM、Krai、Lambda、聯想、MangoBoost、Nebius、英偉達、甲骨文、雲達科技、SCITIX、超微電腦和 TinyCorp。
MLCommons MLPerf 的負責人 David Kanter 稱,特別歡迎首次提交 MLPerf 訓練測試的 AMD、IBM、MangoBoost、Nebius 和 SCITIX。他還強調聯想在本輪測試中提交的首組功耗基準測試,因為 AI 訓練系統的能效問題日益嚴峻,亟需精準測量。
