
NVIDIA Rubin is expected to be released six months early. A new era of AI computing power is about to arrive?

英偉達的下一代 AI GPU 架構 “Rubin” 可能將提前六個月於 2025 年下半年發佈。儘管當前的 Blackwell 架構尚未大規模發貨,英偉達仍在加速其 AI GPU 發展,以鞏固在數據中心市場的主導地位。Rubin 架構預計將採用先進的 CPO 技術和 HBM4,提供前所未有的性能,可能開啓 AI 算力的新紀元。
智通財經 APP 獲悉,有媒體援引知情人士透露的消息報道稱,全球 AI 行業無比期待的英偉達 (NVDA.US) 下一代 AI GPU 架構——“Rubin” 架構,可能將提前六個月,即 2025 年下半年正式發佈。雖然 Blackwell 架構 AI GPU 仍未大規模發貨且被爆出面臨散熱問題,但英偉達似乎堅定加速其 AI GPU 發展路線圖,面對 AMD、亞馬遜以及博通等 AI 芯片競爭對手發起的猛烈攻勢,這家 “綠色巨人” 試圖強化它在數據中心 AI 芯片市場的絕對主導地位。英偉達當前在該市場堪稱 “壟斷”,佔據 80%-90% 份額。
儘管 Blackwell 架構 AI GPU 可能明年第一季度才能在台積電、鴻海、緯穎以及緯創等眾多核心供應商齊心協力之下實現大規模量產,但是隨着谷歌、亞馬遜等雲巨頭自研 AI 芯片浪潮席捲而來,英偉達現在比以往任何時候都更加致力於在數據中心 AI 芯片市場中保持主導地位。對於英偉達股東們來説,他們也需要新的催化劑推動英偉達股價向 200 美元發起衝擊。
包括 OpenAI 以及微軟在內的眾多 AI 行業領軍者,以及摩根士丹利等華爾街投行們已經開始討論英偉達下一代架構 Rubin 的性能將如何強大。一些產業鏈分析人士認為依託共同封裝光學 (CPO) 技術以及 HBM4,加之台積電 3nm 以及下一代 CoWoS 先進封裝所打造的 Rubin 架構 AI GPU 堪稱 “史無前例的性能”,有可能開啓 AI 算力全新紀元,競爭對手們可能需要耗費數年時間來進行追趕。
根據產業鏈知情人士透露的消息,英偉達 Rubin 架構的產品線原定於 2026 年上半年推出,現已要求供應鏈開啓提前測試工作,力爭提前至 2025 年下半年正式推出。由於 OpenAI、Anthropic、xAI 以及 Meta 等人工智能、雲計算以及互聯網大廠們對於 AI 訓練/推理算力幾乎無止境的 “井噴式需求”,迫使英偉達以更快速度推出性能更高、存儲容量更龐大、推理效率更強大且更加節能的下一代 AI GPU 的研發進程。這家綠色巨人試圖加快不同 AI GPU 架構之間的更新節奏。
雖然英偉達官方未進行回覆,但是從存儲芯片製造巨頭 SK 海力士 (SK Hynix) 上月初透露的可能提前生產交付 HBM4 的消息來看,關於 Rubin 消息的真實性非常高。HBM 通過 3D 堆疊存儲技術,將堆疊的多個 DRAM 芯片全面連接在一起,通過微細的 Through-Silicon Vias(TSVs) 進行數據傳輸,從而實現高速高帶寬的數據傳輸,使得 AI 大模型能夠 24 小時不間斷地更高效地運行。
據瞭解,SK 集團董事長崔泰源在 11 月初接受採訪時表示,英偉達首席執行官黃仁勳要求 SK 海力士提前六個月推出其下一代高帶寬存儲產品 HBM4。作為英偉達 H100/H200 以及近期開始生產的 Blackwell AI GPU 的最核心 HBM 存儲系統供應商,SK 海力士一直在引領全球存儲芯片產能競賽,以滿足英偉達、AMD 以及谷歌等大客户們滿足對 HBM 存儲系統的爆炸性需求以及其他企業對於數據中心 SSD 等企業級存儲產品的需求,這些存儲級的芯片產品對於處理海量數據以訓練出愈發強大的人工智能大模型以及需求劇增的雲端 AI 推理算力而言堪稱核心硬件。
在關於 Rubin 的最新消息出爐之前,英偉達目前正處於 “一年一代際” 的 AI GPU 架構更新節奏中,這意味着該公司每年都會發布新一代架構的數據中心 AI GPU 產品,這就是為什麼 Ampere、Hopper 和 Blackwell 架構之間都有長達一年的間隔;然而,對於 Rubin,這種情況可能徹底改變。
知情人士並未提及英偉達為何要提前推出 Rubin 的具體原因,只是將其歸類為一項商業舉措。然而,如果我們從供應鏈角度來看,Rubin 預計將採用台積電的 3nm 工藝,以及存儲領域具有劃時代意義的 HBM4,加上可能是全球首個採取 CPO+ 硅晶圓封裝的數據中心級別 AI 芯片,這些最關鍵的核心環節要麼已經開始準備——比如台積電 3nm 準備就緒、HBM4 可能已經處於測試環節,要麼已確定能夠實現量產,比如 CPO 封裝。因此,鑑於英偉達可能已經為 Rubin 配備了所有 “工具”,黃仁勳可能認為在 2026 年發佈 Rubin 不太合適。
根據英偉達在 GTC 披露的產品路線,Blackwell 升級版——“Blackwell Ultra” 產品線,即 “B300” 系列的首次亮相,英偉達計劃在 2025 年中期發佈該系列。因此,我們可能將看到 Blackwell Ultra 與 Rubin 發佈的時間點非常靠近。目前發佈策略尚不明確,但 Wccftech 以及 The Verge 的一些專業人士表示,英偉達可能將重點放在 Rubin 架構,將 B300 系列視為過渡產品。按照英偉達慣例,預計該公司很快會將發佈更多更新,可能是在 2025 年國際消費電子展 (CES) 前後。
Blackwell 已經非常強大! 但 Rubin,或將開啓 AI 算力新紀元
Blackwell 架構 AI GPU 系列產品,毫無疑問是當前 AI 算力基礎設施領域的 “性能天花板”。在 Blackwell 出爐前,Hopper 也一度被視為算力天花板,而在 CPO 以及 3nm、相比於 HBM3E 性能大幅增強的 HBM4,加之下一代 CoWoS 加持下,暫不考慮 Rubin 本身的基礎架構升級,Rubin 芯片性能可能已經強到無法想象。對於英偉達業績預期來説,Rubin 或將推動華爾街大幅上調 2026 年基本面展望。
作為基準對標,Blackwell 性能已經比 Hopper 強勁得多,在 MLPerf Training 基準測試中,Blackwell 在 GPT-3 預訓練任務中每 GPU 性能比 Hopper 大幅提升 2 倍。這意味着在相同數量的 GPU 下,使用 Blackwell 可以更快地完成模型訓練。對於 Llama 2 70B 模型的 LoRA 微調任務,Blackwell 每 GPU 性能比 Hopper 提升 2.2 倍,這表明 Blackwell 在處理特定高負載 AI 任務時具備更高的效率。MLPerf Training v4.1 中,圖形神經網絡以及 Text-to-Image 基準測試方面,Blackwell 每 GPU 性能比 Hopper 分別提升 2 倍以及 1.7 倍。

根據知情人士披露的消息,以及摩根士丹利調研後的產業鏈報告,Rubin 架構 AI GPU 計劃採用台積電最新 3nm 技術、CPO 封裝以及 HBM4;Rubin 的芯片尺寸或將是 Blackwell 的近兩倍,Rubin 可能包含四個核心計算芯片,是 Blackwell 架構的兩倍。知情人士透露,3nm Rubin 架構預計將在 2025 年下半年進入流片階段,較英偉達之前預期時間提前半年左右。
根據目前披露出的消息來看,Rubin 架構的最大亮點無疑是共同封裝光學 (CPO)。Hopper 與 Blackwell 互連技術更多仍依賴改進之後的 NVLink 以及芯片互連技術,而不是直接通過光學方式進行數據傳輸。
Rubin 大概率是全球首個採取 CPO+ 硅晶圓先進封裝的數據中心級別 AI 芯片,CPO 所帶來的數據傳輸效率以及能耗效率,或將相比於 NVLink 呈現出指數級飛躍。在 CPO 封裝體系中,光學元器件 (如激光器、光調製器、光纖和光探測器) 直接與核心計算芯片 (如 GPU 或 CPU) 封裝在一起,而不是將光學器件單獨放置在芯片外部,這些光學元件的作用是傳遞光信號,替代傳統的電信號傳輸方式,進行芯片間數據的高速傳輸,大幅減少電子數據從芯片到光學接口之間的信號損耗,指數級提高數據吞吐量的同時還能大幅降低功耗。
通過光信號的高速傳輸,CPO 能提供比傳統電信號傳輸更高的數據帶寬,這對於人工智能、大數據以及高性能計算 (HPC) 應用中,尤其是在需要大規模並行計算時至關重要。因此 CPO 封裝被認為是英偉達 Rubin 架構 AI GPU 的核心亮點,它將為下一代 AI 和高性能計算提供極高的帶寬、低延遲和大幅提升的能效。在業內人士看來,由於 CPO 技術能夠更大程度解決數據傳輸速率和功耗問題,它的應用將進一步推動英偉達在數據中心 AI 芯片市場的領先地位。
