
Report: NVIDIA AI chip failure causes Microsoft and other customers to cut orders! Stock price once plummeted nearly 5%

英偉達最新一代 AI 芯片 Blackwell 在部署至數據中心時遭遇技術問題,包括服務器機架過熱和芯片連接異常,導致多家客户(如微軟、AWS、谷歌、Meta)推遲數據中心計劃並削減訂單。消息公佈後,週一早盤,英偉達一度跌超 4.7%。
美東時間 1 月 13 日週一,據《The Information》報道,英偉達最新一代人工智能芯片 Blackwell 在部署至數據中心時遇到了技術問題,主要包括服務器機架過熱和芯片連接異常。
這些問題對數據中心的部署進程造成阻礙,英偉達多家客户(包括微軟、亞馬遜旗下 AWS、谷歌、Meta)最近砍掉了部分 Blackwell GB200 機架的訂單。
因延遲交付,微軟原本計劃安裝大量 GB200 的鳳凰城數據中心現在已經裝滿了 H200 芯片。有消息人士透露,如果英偉達無法解決這些問題,其性能可能會低於公司承諾的水平。
消息公佈後,英偉達美股早盤一度跌超 4.7%。
主要客户削減訂單,尋求替代方案
Blackwell 芯片以其卓越性能和高能效廣受期待。與上一代產品 Hopper 相比,Blackwell 的能源效率提高了四倍,吸引了微軟、亞馬遜、谷歌和 Meta 等科技巨頭。每家公司為此下達了價值逾 100 億美元的訂單。
然而,將多個高功耗芯片集成到一個服務器機架中比預期更具挑戰。每個 Blackwell 機架比家用冰箱還高,重量接近一輛本田思域汽車。由於計算密度極高,機架必須採用水冷系統,而非傳統的風冷系統。對於多數 AI 開發商和數據中心運營商而言,部署這種特殊機架是全新且複雜的任務。此外,並非所有數據中心都能滿足這些機架的環境需求,客户必須重新規劃部署方案。
因過熱和連接問題,部分客户削減了 Blackwell GB200 機架的訂單。例如,有客户選擇等待可能在今年下半年推出的改進版本,另一些則計劃採購英偉達的舊款 AI 芯片作為替代方案。雖然英偉達推薦整機架方案,但部分客户可能改為單獨購買 Blackwell 芯片以便自行組裝。
儘管面臨挑戰,英偉達仍有機會挽回局面。如果能夠及時解決這些技術問題,客户或許會重新增加訂單。此外,儘管機架存在問題,Blackwell 芯片的性能仍然優於上一代產品,英偉達可能會為問題機架找到其他買家。
英偉達去年 11 月曾預測,新一代 AI 芯片 Blackwell 將在今年第一季度為公司帶來數十億美元的收入,並助推其全年數據中心芯片收入從 475 億美元增長至 1500 億美元。Blackwell 芯片的高能效本是吸引雲服務提供商的關鍵因素,這些供應商希望在固定能源條件下實現更高的計算效率。
芯片延遲影響數據中心部署計劃
據知情人士透露,作為 OpenAI 的服務器提供商,微軟原計劃在其鳳凰城的一個設施中安裝至少包含 5 萬枚 Blackwell 芯片的 GB200 機架。然而,由於 Blackwell 芯片從去年開始延遲交付,OpenAI 要求微軟儘早為其提供上一代英偉達 H200 芯片。這一變化導致原本計劃安裝大量 GB200 的鳳凰城數據中心現在已經裝滿了 H200 芯片。
據知情人士透露,微軟現在計劃在今年 3 月在鳳凰城的一個設施中安裝包含 12000 枚 Blackwell 芯片的 GB200 機架,這一數量約為最初計劃的四分之一。另一位與微軟合作的人士表示,該公司還計劃在今年晚些時候 GB300 Blackwell 機架上市時進行採購。
英偉達原本計劃在去年年底開始向客户交付 Blackwell 機架,但由於芯片設計缺陷導致初期延遲了三個月。儘管英偉達已經修復了這一問題,但到 11 月份時,客户開始擔心機架的過熱問題。為此,英偉達多次要求供應商更改設計。
然而,問題並未得到完全解決。據參與機架測試的三位人士透露,客户還發現芯片之間數據傳輸(即網絡)存在不一致的情況。這些問題可能導致 Blackwell 機架的設置時間比預期更長,如果英偉達無法解決這些問題,其性能可能會低於公司承諾的水平。
