
馬斯克和他的 “超級算力工廠”

馬斯克計劃在 2025 年秋季前投入一台超級計算機,其規模將是當前最大 GPU 集羣的四倍。他計劃與 Oracle 合作開發這個超級計算機,並已從 Oracle 租用了大約 1.6 萬台 H100 芯片服務器。預計這台超級計算機需要花費數十億美元,並獲得足夠的電力。馬斯克的決定是為了與競爭對手保持競爭力,因為他們計劃在明年推出類似規模的 AI 芯片集羣。這個超級計算機將提供更強大的計算能力,有助於提升人工智能技術。
根據 The Information 最新報道,馬斯克 5 月份在向投資者做演示時表示,他希望超級計算機能在 2025 年秋季之前投入運行,並將親自負責按時交付;預計完成後,連接在一起的芯片組將至少是當今最大 GPU 集羣的4 倍,例如 Meta Platforms 為訓練其 AI 模型而構建的 GPU 集羣。
馬斯克曾公開表示,xAI 將需要多達 10 萬個 GPU 來訓練和運行其下一版本的Grok。為了讓聊天機器人更智能,馬斯克最近告訴投資者,xAI 計劃將所有這些芯片串聯成一台超級計算機,或者説是計算超級工廠(Gigafactory of Compute)。
xAI 可能會與 Oracle 合作開發這台超級計算機。xAI 一直在與 Oracle 高管討論在未來幾年內可能花費 100 億美元租用雲服務器的問題。目前,xAI 已經從 Oracle 租用了大約 1.6 萬台 H100 芯片服務器,也是 Oracle 此類芯片最大客户。
預計這台超級計算機需要花費數十億美元並獲得足夠的電力,以趕上資金更雄厚的競爭對手,這些競爭對手也計劃在明年推出類似規模的 AI 芯片集羣,並在未來推出更大的芯片集羣。
集羣是指單個數據中心內通過電纜連接的眾多服務器芯片,以便它們能夠以更高效的方式同時進行復雜計算。領先的 AI 公司和雲提供商認為,擁有更大、計算能力更強的集羣將帶來更強大的 AI。
xAI 的辦公室位於舊金山灣區,但決定 AI 數據中心位置的最重要因素是電力供應。據悉,擁有 10 萬個 GPU 的數據中心可能需要 100 兆瓦的專用電力。
這將比傳統雲計算中心所需的電力要多很多,與雲提供商目前運行和建設的容納多個集羣的 AI 中心的能源需求相當,這些數據中心越來越多地建在偏遠或非傳統的地方,那裏的電力更便宜,也更充足。
此前,也傳出微軟和 OpenAI 正在威斯康星州建設一個獨立於價值1000億美元的超級計算機的大型數據中心,競爭成本約為100億美元,而亞馬遜網絡服務正在亞利桑那州建設一些 AI 數據中心。
根據馬斯克的時間表,xAI 仍落後於對手。到今年年底或明年年初,OpenAI 及其主要支持者微軟可能已經擁有了馬斯克設想的規模的集羣。OpenAI 和微軟還討論了開發一台價值1000 億美元的超級計算機,規模將是馬斯克設想的幾倍,包含數百萬個 Nvidia GPU。
Nvidia CFO Colette Kress 已將 xAI 列入六家客户名單中,這些客户將與 OpenAI、亞馬遜、谷歌等公司一起率先使用 Nvidia 的下一代旗艦芯片 Blackwell。
目前,xAI 正在 2 萬個 GPU 上訓練 Grok 2.0,最新版本可以處理文檔、圖表和現實世界中的物體,未來該模型也將擴展到音頻和視頻。此外,馬斯克 4 月份與投資者的電話會議上表示,特斯拉還擁有 3.5 萬台 Nvidia H100 來訓練其自動駕駛,並計劃在今年年底前將數量增加一倍以上。
馬斯克 xAI 計劃打造 AI 版的超級工廠,規模將是如今最大 GPU 集羣四倍,明年秋季前投入運行》
