NVIDIA's 25-year roadmap has been leaked! Old Huang is betting big on B100 to beat AMD, and the secret weapon X100 has been revealed.

華爾街見聞
2023.10.11 06:02
portai
I'm PortAI, I can summarize articles.

硬件路線圖、工藝技術計劃、HBM3E 的速度/容量…如果這些計劃如願成功,英偉達將繼續成功碾壓對手。

近日,外媒曝光了一份英偉達全新 GPU 路線圖,史上最強 B100 技術細節全流出,其中最神秘的 X100,據悉將在 2025 年上市。

英偉達的 AI 硬件霸主,當得太久了!

現在,各大科技公司都在虎視眈眈,等着一舉顛覆它的霸主之位。

當然,英偉達也不會坐以待斃。

最近,外媒 SemiAnalysis 曝出了一份英偉達未來幾年的硬件路線圖,包括萬眾矚目的 H200、B100 和「X100」GPU。

隨之一同流出的,還有一些硬核信息,包括英偉達的工藝技術計劃、HBM3E 的速度/容量、PCIe 6.0、PCIe 7.0、NVLink、1.6T 224G SerDes 計劃。

如果這些計劃如願成功,英偉達將繼續成功碾壓對手。

當然,霸主之位也沒這麼好當——AMD 的 MI300、MI400,亞馬遜的 Trainium2,微軟的 Athena,英特爾的 Gaudi 3,都不會讓英偉達好過。

準備好,前方高能來襲!

英偉達,不止想做硬件霸主

谷歌早已開始佈局自己的 AI 基礎設施,他們構建的 TPUv5 和 TPUv5e,既可以用於內部的訓練和推理,也可以給蘋果、Anthropic、CharacterAI、MidJourney 等外部客户使用。

谷歌不是英偉達唯一的威脅。

在軟件方面,Meta 的 PyTorch2.0 和 OpenAI 的 Triton 也在迅猛發展,使其他硬件供應商得以實現兼容。

現在,軟件上的差距仍然存在,但遠不及從前那麼巨大了。

在軟件堆棧上,AMD 的 GPU、英特爾的 Gaudi、Meta 的 MTIA 和微軟的 Athena 都取得了一定程度的發展。

儘管英偉達仍然保持着硬件領先地位,但差距的縮小,會越來越快。

英偉達 H100,也不會獨領風騷太久。

在接下來的幾個月內,無論是 AMD 的 MI300,還是英特爾的 Gaudi 3,都將推出技術上優於 H100 的硬件產品。

而除了谷歌、AMD、英特爾這些難纏的對手,還有一些公司,也給了英偉達不小的壓力。

這些公司雖然在硬件設計上暫時落後,但能得到背後巨頭的補貼——天下苦英偉達久矣,這些公司都希望打破英偉達在 HBM 上的鉅額利潤壟斷。

亞馬遜即將推出的 Trainium2 和 Inferentia3, 微軟即將推出的 Athena,都是已佈局多年的投資。

競爭對手來勢洶洶,英偉達當然也不會坐以待斃。

在外媒 SemiAnalysis 看來,無論管理風格還是路線決策,英偉達都是「行業中最多疑的公司之一」。

而黃仁勳身上,體現了一股安迪·格魯夫的精神。

成功導致自滿。自滿導致失敗。只有偏執狂才能生存。

為了穩坐第一把交椅,英偉達野心勃勃,採取了多管齊下的冒險策略。

他們已經不屑於再和英特爾、AMD 在傳統的市場上競爭,而是想成為谷歌、微軟、亞馬遜、Meta、蘋果這樣的科技巨頭。

而英偉達的 DGX Cloud、軟件,以及針對非半導體領域的收購策略,背後都是一盤大棋。

路線圖最新細節曝光!

英偉達最新路線圖的重要細節,已經被曝光。

內容包括所採用的網絡、內存、封裝和工藝節點,各種 GPU、SerDes 選擇、PCIe6.0、協同封裝光學器件和光路交換機等細節。

顯然,懾於谷歌、亞馬遜、微軟、AMD 和英特爾的競爭壓力,英偉達連夜加快了B100「X100」的研發。

B100:上市時間高於一切

根據內部消息,英偉達的 B100 將於 2024 年第三季度量產,部分早期樣品將於 2024 年第二季度出貨。

從性能和 TCO 看,無論是亞馬遜的 Trainium2、谷歌的 TPUv5、AMD 的 MI300X,還是英特爾的 Gaudi 3 或微軟的 Athena,跟它相比都弱爆了。

即使考慮到從設計合作方、AMD 或台積電獲得的補貼,它們也統統打不過。

為了儘快將 B100 推向市場,英偉達做了不少妥協。

比如,英偉達本想把功耗定在更高的水平(1000W),但最終,他們還是選擇了繼續使用 H100 的 700W。

這樣,B100 推出時,就能繼續使用風冷技術。

此外,在 B100 早期系列,英偉達也會堅持使用 PCIe5.0。

5.0 和 700W 的組合意味着,它可以直接插入現有的 H100 HGX 服務器中,從而大大提高供應鏈能力,更早地量產和出貨。

之所以決定堅持使用 5.0,還有部分原因是,AMD 和英特爾在 PCIe6.0 集成上還遠遠落後。而即使英偉達自己的內部團隊,也沒有準備好使用 PCIe6.0CPU。

此外,他們還將使用速度更快的 C2C 式鏈接。

在以後,ConnectX-8 會配備一款集成的 PCIe6.0 交換機,但目前還沒人準備好。

據悉,博通和 AsteraLabs 要到年底才能準備好量產的 PCIe6.0 重定時器,而考慮到這些基板的尺寸,所需的重定時器只會更多。

這也意味着,最初的 B100 將被限制在 3.2T,使用 ConnectX-7 時的速度也僅僅是 400G,而非英偉達在 PPT 上所宣稱的每個 GPU 800G。

如果保持空氣冷卻,電源、PCIe 和網絡速度不變,那無論是製造還是部署,都會很容易。

稍後,英偉達會推出一個需要水冷的 1,000W+ 版本 B100。

這一版 B100 將通過 ConnectX-8,為每個 GPU 提供完整的 800G 網絡連接。

對於以太網/InfiniBand,這些 SerDes 仍然是 8x100G。

雖然每個 GPU 的網絡速度提高了一倍,但基數卻減半了,因為它們仍需通過相同的 51.2T 交換機。而 102.4T 交換機,在 B100 一代中將不再使用。

有趣的是,有爆料稱 B100 上的 NVLink 組件將採用 224G SerDes,如果英偉達真能做到這一點,無疑是巨大的進步。

大多數人業內人士都認為,224G 並不可靠,2024 年不可能實現,但英偉達的人除外。

要知道,無論是谷歌、Meta,還是亞馬遜,他們的 224G AI 加速器量產目標都定在 2026/2027 年。

如果英偉達在 2024/2025 年就實現了這一點,鐵定會把對手們打得落花流水。

據悉,B100 仍然是台積電的 N4P,而不是基於 3nm 工藝的技術。

顯然,對於如此大的芯片尺寸,台積電的 3nm 工藝尚未成熟。

根據英偉達基板供應商 Ibiden 透露的基板尺寸,英偉達似乎已經轉而採用由 2 個單片大芯片 MCM 組成的設計,包含 8 或 12 個 HBM 堆疊。

SambaNova 和英特爾明年的芯片,都採用了類似的宏觀設計。

英偉達之所以沒有像 AMD 那樣使用混合鍵合技術,是因為他們需要量產,而成本就是他們的一大顧慮。

據 SemiAnalysis 估測,這兩款 B100 芯片的內存容量將與 AMD 的 MI300X 相近或更高,達到 24GB 堆疊。

風冷版 B100 的速度可達 6.4Gbps,而液冷版可能高達 9.2Gbps。

另外,英偉達還在路線圖中展示了 GB200 和 B40。

GB200 和 GX200 都使用了 G,顯然這是一個佔位符,因為英偉達將推出基於 Arm 架構的新 CPU。並不會長期使用 Grace。

B40 很可能只是 B100 的一半,只有一個單片 N4P 芯片,和最多 4 或 6 層的 HBM。與 L40S 不同,這對於小模型的推理是很有意義的。

「X100」:致命一擊

曝出的路線圖中最惹人注意的,就是英偉達的「X100」時間表了。

有趣的是,它與 AMD 目前的 MI400 時間表完全吻合。就在 H100 推出一年後,AMD 發佈了 MI300X 戰略。

AMD 給 MI300X 的封裝令人印象深刻,他們大量塞入了更多的計算和內存,希望能超越一年前的 H100,從而在純硬件上超越英偉達。

英偉達也發現了,他們兩年一次發佈新 GPU 的節奏,給了競爭對手大好的機會搶奪市場。

被逼急了的英偉達,正在把產品週期加快到每年一次,不給對手任何機會。比如,他們計劃於 2025 年推出「X100」,僅僅比 B100 晚一年。

當然,「X100」目前還並未量產(不像 B100),所以一切還懸而未決。

要知道,在過去,英偉達可從來不會討論下一代產品之後的產品,這次已經是史無前例了。

而且,名字大概率也不叫「X100」。

英偉達一直以來的傳統,都是以 Ada Lovelace、Grace Hopper 和 Elizabeth Blackwell 等傑出女科學家的名字來命名 GPU 的。

至於「X」,唯一符合邏輯的就是研究半導體和金屬帶結構的 Xie Xide,但考慮到她的身份,概率應該不大。

供應鏈大師:老黃的豪賭

自英偉達成立之初,黃仁勳就一直在積極推動着對供應鏈的掌握,從而支持龐大的增長目標。

他們不僅願意承擔不可取消的訂單——高達 111.5 億美元的採購、產能和庫存承諾,並且還有 38.1 億美元的預付款協議。

可以説,沒有一家供應商能與之相提並論。

而英偉達的事蹟也不止一次表明,他們可以在供應短缺時創造性地增加供應量。

2007 年黃仁勳與張忠謀的對話

1997 年,張忠謀和我相遇時,只有 100 人的英偉達在那一年完成了 2700 萬美元的收入。你們可能不相信,但張忠謀以前經常打電話推銷,並且還會上門拜訪。而我則會向張忠謀解釋英偉達是做什麼的,以及我們的芯片尺寸需要多大,而且每年都會越來越大。後來,英偉達總共做了 1.27 億個晶圓。從那時起,英偉達每年增長近 100%,直到現在。也就是在過去 10 年中,複合年增長率達到了 70% 左右。

當時,張忠謀無法相信英偉達需要如此多的晶圓,但黃仁勳堅持了下來。

英偉達通過在供應方面的大膽嘗試,取得了巨大成功。雖然時不時要減記價值數十億美元的庫存,但他們仍然從過度的訂購中獲得了正收益。

這次,英偉達直接搶佔了 GPU 上游組件的大部分供應——

他們向 SK 海力士、三星和美光這 3 家 HBM 供應商下了非常大的訂單,擠佔了除博通和 Google 之外其他所有人的供應。同時,還買下了台積電 CoWoS 的大部分供應,以及 Amkor 的產能。

此外,英偉達還充分利用了 HGX 板卡和服務器所需的下游組件,如重定時器、DSP、光學器件等。

如果供應商對英偉達要求置若罔聞,那麼就會面對老黃的「蘿蔔加大棒」——

一方面,他們會從英偉達獲得難以想象的訂單;另一方面,他們可能會被英偉達從現有的供應鏈中剔除。

當然,英偉達也只有在供應商至關重要且無法被淘汰或多元化供應的情況下,才會使用承諾和不可取消的訂單。

每個供應商似乎都認為自己是 AI 的贏家,部分原因是因為英偉達向所有供應商都下了大量的訂單,而他們也都認為自己贏得了大部分業務。但實際上,只是因為英偉達的增長速度太快了。

回到市場動態上,雖然英偉達的目標是在明年實現超過 700 億美元的數據中心銷售額,但只有谷歌在上游有足夠的產能——擁有超過 100 萬台的設備。AMD 在 AI 領域的總產能仍然非常有限,最高也不過幾十萬台。

商業策略:潛在的反競爭

眾所周知,英偉達正在利用對 GPU 的巨大需求,來向客户推銷和交叉銷售產品。

供應鏈中有大量信息透露,英偉達會根據一系列因素向某些公司提供優先分配。包括但不限於:多元化採購計劃、自主研發 AI 芯片計劃、購買英偉達的 DGX、NIC、交換機和/或光學設備等。

事實上,英偉達的捆綁銷售非常成功。儘管之前只是一家規模很小的光纖收發器供應商,但他們的業務量在一個季度內增長了兩倍,預計明年的出貨量將超過 10 億美元——遠遠超過了自家 GPU 或網絡芯片業務的增長速度。

這些策略,可以説是相當周密。

比如,想要在英偉達的系統上實現 3.2T 網絡和可靠的 RDMA/RoCE,唯一方法就是使用英偉達的 NIC。當然,一方面也是因為英特爾、AMD 和博通的產品實在是缺乏競爭力——仍然停留在 200G 的水平上。

而通過對供應鏈的管理,英偉達還促使 400G InfiniBand NIC 的交付週期,能夠比 400G 以太網 NIC 明顯縮短。而這兩種 NIC(ConnectX-7)在芯片和電路板設計上,其實是完全相同的。

其原因在於英偉達的 SKU 配置,而非實際的供應鏈瓶頸——迫使企業不得不購買成本更高的 InfiniBand 交換機,而不是標準的以太網交換機。

這還不止,看看供應鏈對 L40 和 L40S GPU 有多麼着迷,就知道英偉達又在分配上做手腳了——為了贏得更多 H100 的分配,OEM 廠商就需要購買更多的 L40S。

這與英偉達在 PC 領域的操作,也是如出一轍——筆記本製造商和 AIB 合作伙伴必須購買更大量的 G106/G107(中/低端 GPU)才能獲得更稀缺、更高利潤的 G102/G104(高端和旗艦 GPU)。

作為配合,供應鏈中的人也被灌輸了這樣的説法——L40S 比 A100 更好,因為它具有更高的 FLOPS。

但實際上,這些 GPU 並不適合 LLM 推理,因為它們的顯存帶寬還不到 A100 的一半,而且也沒有 NVLink。

這意味着在 L40S 上運行 LLM 並實現良好的 TCO 幾乎是不可能的,除非是非常小的模型。而大批量的處理也會導致分配到每個用户上的 token/s 幾乎是不可用的,從而使理論上的 FLOPS 在實際應用中變得毫無用處。

此外,英偉達的 MGX 模塊化平台,雖然省去了服務器設計的艱苦工作,但也同時降低了 OEM 的利潤率。

戴爾、惠普和聯想等公司顯然對 MGX 持抵制態度,但諸如超微、廣達、華碩、技嘉等公司則爭相填補這一空白,將低成本的「企業人工智能」商品化。

而這些參與 L40S 和 MGX 炒作的 OEM/ODM,也可以從英偉達那裏獲得更好的主線 GPU 產品分配。

光電共封裝(Co-Packaged Optics)

在 CPO 方面,英偉達也是相當重視。

他們一直在研究各種解決方案,包括來自 Ayar Labs 的解決方案,以及他們自己從 Global Foundries 和台積電獲得的解決方案。

目前,英偉達已經考察了幾家初創公司的 CPO 方案,但暫時還沒有做出最終的決定。

分析認為,英偉達很有可能將 CPO 集成到「X100」的 NVSwitch 上。

因為直接集成到 GPU 本身可能成本太高,而且在可靠性方面也很困難。

光路交換機(Optical Circuit Switch)

谷歌在人工智能基礎設施方面最大的優勢之一,就是它的光路交換機。

顯然,英偉達也在追求類似的東西。目前,他們已經接觸了多家公司,希望能夠進行合作開發。

英偉達意識到,Fat Tree 在繼續擴展方面已經走到了盡頭,因此需要另一種拓撲結構。

與谷歌選擇 6D Torus 不同,英偉達更傾向於採用 Dragonfly 結構。

據瞭解,英偉達距離 OCS 的出貨還遙遙無期,但他們希望在 2025 年時能夠更加接近這一目標,但大概率無法實現。

OCS + CPO 是聖盃,尤其是當 OCS 可以實現按數據包交換時,將會直接改變遊戲規則。

不過,目前還沒有人展示過這種能力,甚至連谷歌也沒有。

雖然英偉達的 OCS 和 CPO 還只是研究部門的兩套 PPT,但分析人士認為,CPO 會在 2025 至 2026 年內離產品化更進一步。

本文來源:新智元,原文標題:《英偉達 25 年路線圖驚爆流出!老黃豪賭 B100 暴打 AMD,秘密武器 X100 曝光》