
Elon Musk explains: how xAI built and launched a training cluster of 100,000 cards in 122 days

埃隆·馬斯克主持了 Grok 3 的發佈會,介紹了其核心特點和新工具 “Deep Search”。xAI 團隊在 122 天內成功搭建了全球最大訓練集羣,使用 10 萬個 H100 GPU 進行協調訓練。團隊面臨的挑戰包括確保所有 GPU 的協同工作,以避免因單個 GPU 故障導致的訓練錯誤。馬斯克強調了團隊的工程成就,打破了數據中心提供商的預期時間。
昨天中午,埃隆·馬斯克領銜主持了萬眾期待的 “地表最強人工智能”——Grok 3 的發佈會。
他與 xAI 的首席工程師 Igor Babuschkin、聯合創始人 Jimmy Ba、Yuhuai "Tony" Wu 共同亮相,詳細介紹了 Grok 3 的核心特點,包括其顯著提升的推理能力、自然語言處理能力以及新推出的 “Deep Search”(深度搜索)工具。這一工具被設計用來處理複雜的查詢,能夠整合網絡搜索和 X 平台上的實時信息,為用户提供更精準、深入的回答。

在回答最後一個觀眾提問時,埃隆介紹了 xAI 團隊如何創下另一個工程奇蹟:克服重重困難,在短短 122 天內,搭建並上線了 10 萬張卡的全球最大訓練集羣。

觀眾提問:
在這個項目(Grok 3)中,最困難的部分是什麼?你對此感到興奮的是什麼?
Jimmy Ba:
回想起來,我認為最困難的部分是讓整個模型在 10 萬個 H100 GPU 上協調訓練,這幾乎就像在與宇宙的最終 BOSS——熵——作鬥爭。因為在任何時候,都有可能射下來一根宇宙射線,翻轉晶體管中的一個比特,如果梯度更新中有一個比特出錯,整個梯度更新就會亂套。
而現在我們有 10 萬個這樣的 GPU,每次我們都必須讓它們協同工作,任何時候任何一個 GPU 都可能出問題。

Jimmy Ba,華人,多倫多大學助理教授,人工智能先驅傑弗裏·辛頓(Geoffrey Hinton)的學生,xAI 團隊創始 12 員工之一
埃隆·馬斯克:
是的,值得分解一下,我們是如何在 122 天內讓世界上最強大的訓練集羣投入運行的。
一開始,我們其實並沒有打算自己建數據中心。我們去找了數據中心提供商,問他們在一個地方協調運行 10 萬個 GPU 需要多長時間。他們給出的時間範圍是 18 到 24 個月。我們想,18 到 24 個月,這意味着失敗是必然的。
所以唯一的辦法就是自己動手。
於是,我們分解了這個問題。比如我們需要一棟建築,我們不能自己建,必須使用現有的建築。所以我們基本上尋找了一些被廢棄、但本身狀況良好的工廠,比如因為某家公司破產了之類的。
我們在孟菲斯找到了一家伊萊克斯工廠。這就是為什麼它在孟菲斯——貓王的故鄉,也是古埃及的首都之一。
這其實是一座非常不錯的工廠,我不知道伊萊克斯為什麼離開了,但它為我們的計算機提供了庇護所。

然後,我們需要電力,最初至少需要 120 兆瓦,但建築本身只有 15 兆瓦。而最終為了 20 萬個 GPU,我們需要 0.25 吉瓦的電力。
我們最初租了一大堆發電機。在建築的一側,我們有一排排的發電機,直到我們能夠接入公用電力。
然後,我們還需要冷卻。所以在建築的另一側,我們有一排排的冷卻設備。我們租用了美國大約四分之一的移動冷卻能力。
然後,我們需要安裝所有的 GPU,它們都是液冷的。為了實現必要的密度,這是一個液冷系統。所以我們必須為液冷系統安裝所有的管道。沒有人曾經大規模地搭建過液冷的數據中心。

這是一個非常才華橫溢的團隊付出了極大的努力才能實現的結果。
你可能會想,現在應該可以跑起來了吧?
不。問題是 GPU 集羣的電力波動非常劇烈,這就像一場巨大的交響樂。想象一下,一場有 10 萬或 20 萬人參與的交響樂,整個樂團會在 100 毫秒內從安靜變到響亮。這導致了巨大的電力波動,進而導致發電機失控,它們從沒預料到這種情況。
為了緩衝電力,我們使用了特斯拉的 Megapack 來平滑電力。Megapack 必須重新編程,於是 xAI 與特斯拉合作,我們重新編程了 Megapack,讓它能夠應對這些劇烈的電力波動,平滑電力,以便計算機能夠正常運行。
這個方法奏效了,雖然過程相當複雜。

運抵孟菲斯的特斯拉 Megapack
但即使到了那個時候,我們仍然必須讓所有計算機有效地通信,所有的網絡問題都必須解決。我們調試了無數的網絡電纜,凌晨四點鐘還在調試網卡問題,我們大約在凌晨 4 點 20 分解決了問題。
我們發現有很多問題,其中之一是 BIOS 不匹配。
Igor Babuschki:
沒錯,BIOS 沒有正確設置。我們必須在兩台不同的機器之間比較 lspci 命令(注:一個 Linux 命令,用於列出系統中所有 PCI 設備)的輸出。一台工作正常,一台不正常。還有很多其他問題。
埃隆·馬斯克:
是的,沒錯。如果我們真的列出所有問題,會需要很長的時間。但這很有趣,這並不是説,哦,我們神奇地做到了。
我們必須像 Grok 在推理時那樣,將問題分解成各個組成部分,然後解決每個組成部分,以便在比其他人短得多的時間內完成一個協調的訓練集羣。

Igor Babuschki:
然後,一旦訓練集羣啓動並運行,可以交付使用,我們就必須確保它在整個過程中保持健康,這本身就是一個巨大的挑戰。
然後,我們必須確保訓練的每一個細節都正確,才能得到一個 Grok 3 級別的模型,這其實非常非常困難。
我們不知道是否有其他模型具備 Grok 3 的能力,但任何訓練出比 Grok 3 更好的模型的人,都必須在深度學習的科學和工程的各個方面都非常出色。
要做到這一點並不容易。

瓦礫村夫,原文標題:《馬斯克詳解:xAI 如何在 122 天內搭建上線 10 萬張卡訓練集羣》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
