
瘋狂的 H100

新概念印鈔機,比黃金更貴的顯卡。
2023 年 8 月 3 日,華爾街和硅谷聯袂奉上了一件震撼業界的大事:讓一家創業公司拿到 23 億美元的債務融資,抵押物則是當前全球最硬的通貨——H100 顯卡。
這個大事件的主角叫做 CoreWeave,主營業務是 AI 私有云服務,簡單説就是通過搭建擁有大量 GPU 算力的數據中心,來給 AI 創業公司和大型商業客户提供算力基礎設施。CoreWeave 累計融資 5.8 億美金,目前是 B 輪,估值 20 億美元。
CoreWeave 成立於 2016 年,創始人是三個華爾街大宗商品交易員。剛開始公司的主營業務只有一個:挖礦,採購大量 GPU 來組建礦機中心,尤其是在幣圈低潮時,公司會逆週期囤大量顯卡,也因此跟英偉達建立了鐵桿的革命友誼。

CoreWeave 三位聯合創始人
2019 年,CoreWeave 開始把這些礦機改造成企業級數據中心,向客户提供 AI 雲服務,剛開始的生意也不温不火,但 ChatGPT 誕生之後,大模型的訓練和推理每天都在消耗大量算力,已經擁有數萬張顯卡(當然未必是最新型號)的 CoreWeave 嗖的一下起飛,門口擠滿了客户和風投。
但令人感到蹊蹺的是:CoreWeave 累計一共只融到了 5.8 億美金,賬面 GPU 的淨值不會超過 10 億美元,甚至公司整體估值也只有 20 億美元,但為何卻能通過抵押借到 23 億美元呢?一向精於算計、熱衷對抵押物價值膝蓋斬的華爾街,為何如此慷慨呢?
原因極有可能是:CoreWeave 雖然賬上還沒這麼多顯卡,但它拿到了英偉達的供貨承諾,尤其是 H100。
CoreWeave 跟英偉達的鐵桿關係已經是硅谷公開的秘密。這種鐵桿根源於 CoreWeave 對英偉達的毫無二心的忠誠和支持——只用英偉達的卡、堅決不自己造芯、顯卡賣不動時幫英偉達囤卡。對黃仁勳來説,這種關係的含金量,遠超跟微軟、Google 和特斯拉的那些塑料友情。
因此,儘管英偉達 H100 十分緊缺,英偉達還是把大量新卡分配給了 CoreWeave,甚至不惜限制對亞馬遜和谷歌等大廠的供應。黃仁勳在電話會議裏誇讚:“一批新的 GPU 雲服務提供商會崛起,其中最著名的是 CoreWeave,他們做得非常好。”
而在喜提 23 億美金的一週前,CoreWeave 就已對外宣稱,將耗資 16 億美元在德州建立一個佔地面積 42,000 平方米的數據中心。僅憑藉跟英偉達之間的關係和優先配貨權,CoreWeave 就可以把建數據中心的錢從銀行裏借出來——這種模式,讓人想起了拿地後立馬找銀行貸款的地產商。
所以可以這樣説:當下一份 H100 的供貨承諾,堪比房地產黃金時代的一紙土地批文。
一卡難求的 H100
今年 4 月在接受採訪時,馬斯克抱怨道 [2]:“現在似乎連狗都在買 GPU。”
很諷刺的是,特斯拉早在 2021 年就發佈了自研的 D1 芯片,由台積電代工,採用 7nm 工藝,號稱能替代當時英偉達主流的 A100。但 2 年過去了,英偉達推出了更為強大的 H100,而特斯拉的 D1 沒有後續迭代,因此當馬斯克試圖組建自家的人工智能公司時,還是得乖乖地跪在黃老爺門前求卡。
H100 在去年 9 月 20 日正式推出,由台積電 4N 工藝代工。相較於前任 A100,H100 單卡在推理速度上提升 3.5 倍,在訓練速度上提升 2.3 倍;如果用服務器集羣運算的方式,訓練速度更是能提高到 9 倍,原本一個星期的工作量,現在只需要 20 個小時。

GH100 架構圖
相比 A100,H100 的單卡價格更貴,大約是 A100 的 1.5~2 倍左右,但訓練大模型的效率卻提升了 200%,這樣這算下來的 “單美元性能” 更高。如果搭配英偉達最新的高速連接系統方案,每美元的 GPU 性能可能要高出 4-5 倍,因此受到客户瘋狂追捧。
搶購 H100 的客户,主要分成三類:
第一類是綜合型雲計算巨頭,比如微軟 Azure、谷歌 GCP 和亞馬遜 AWS 這樣的雲計算巨頭。他們的特點是財大氣粗,動輒就想 “包圓” 英偉達的產能,但每家也都藏着小心思,對英偉達的近壟斷地位感到不滿,暗地裏自己研發芯片來降低成本。
第二類是獨立的雲 GPU 服務商,典型公司如前文提到的 CoreWeave,以及 Lambda、RunPod 等。這類公司算力規模相對較小,但能夠提供差異化的服務,而英偉達對這類公司也是大力扶持,甚至直接出錢投資了 CoreWeave 和 Lambda,目的很明確:給那些私自造芯的巨頭們上眼藥。
第三類是自己在訓練 LLM(大語言模型)的大小公司。既包括 Anthropic、Inflection、Midjourney 這種初創公司,也有像蘋果、特斯拉、Meta 這樣的科技巨頭。它們通常一邊使用外部雲服務商的算力,一邊自己採購 GPU 來自建爐灶——有錢的多買,沒錢的少買,主打一個豐儉由人。
在這三類客户中,微軟 Azure 至少有 5 萬張 H100,谷歌手上大概有 3 萬張,Oracle 大概有 2 萬張左右,而特斯拉和亞馬遜手上也至少拿有 1 萬張左右,CoreWeave 據稱有 3.5 萬張的額度承諾(實際到貨大概 1 萬)。其他的公司很少有超過 1 萬張的。
這三類客户總共需要多少張 H100 呢?根據海外機構 GPU Utils 的預測,H100 當前需求大概 43.2 萬張。其中 OpenAI 需要 5 萬張來訓練 GPT-5,Inflection 需求 2.2 萬張,Meta 則是 2.5 萬張(也有説法是 10 萬張),四大公有云廠商每家都需要至少 3 萬張,私有云行業則是 10 萬張,而其他的小模型廠商也有 10 萬張的需求 [3]。
英偉達 2023 年的 H100 出貨量大概在 50 萬張左右,目前台積電的產能仍在爬坡,到年底 H100 一卡難求的困境便會緩解。
但長期來看,H100 的供需缺口會隨着 AIGC 的應用爆發而繼續水漲船高。根據金融時報的報道,2024 年 H100 的出貨量將高達 150 萬張-200 萬張,相比於今年的 50 萬張,提升 3-4 倍 [4]。
而華爾街的預測則更為激進:美國投行 Piper Sandler 認為明年英偉達在數據中心上的營收將超過 600 億美元(FY24Q2:103.2 億美元),按這個數據倒推,A+H 卡的出貨量接近 300 萬張。
還有更誇張的估計。某 H100 服務器最大的代工廠(市佔率 70%-80%),從今年 6 月開始就陸續出貨了 H100 的服務器,7 月份產能陸續爬坡。一份最近的調研顯示,這家代工廠認為 2024 年 A+H 卡的出貨量會在 450 萬張~500 萬張之間。
這對英偉達意味着 “潑天的富貴”,因為 H100 的暴利程度,是其他行業人難以想象的。
比黃金更貴的顯卡
為了搞清 H100 有多暴利,我們不妨把它的物料成本(Bill of Materials, BOM)徹底拆解出來。
如圖所示,H100 最通用的版本 H100 SXM 採用的是台積電 CoWoS 的 7 晶粒封裝,6 顆 16G 的 HBM3 芯片分列兩排緊緊圍繞着中間的邏輯芯片。
而這也構成了 H100 最重要的三個部分:邏輯芯片、HBM 存儲芯片、CoWoS 封裝,除此之外,還有諸如 PCB 板以及其他的一些輔助器件,但價值量不高。
核心的邏輯芯片尺寸是 814mm^2,產自台積電最先進的台南 18 號工廠,使用的工藝節點則是 “4N”,雖然名字上是 4 打頭,但實際上是 5nm+。由於 5nm 的下游,手機等領域的景氣度不佳,因此台積電在保供邏輯芯片上沒有任何問題。
而這塊邏輯芯片是由 12 寸(面積 70,695mm^2)的晶圓切割產生,理想狀態下可以切出 86 塊,但考慮到 “4N” 線 80% 的良率以及切割損耗,最後一張 12 寸晶圓只能切出 65 塊的核心邏輯芯片。
這一塊核心邏輯芯片的成本是多少呢?台積電 2023 年一片 12 寸的晶圓對外報價是 13,400 美元,所以折算下來單塊大概在 200 美元左右。
接下來是6 顆 HBM3 芯片,目前由 SK 海力士獨供,這家起源於現代電子的企業,2002 年幾乎要委身與美光,憑藉着政府的輸血以及逆週期上產能的戰略,如今在 HBM 的量產技術上至少領先美光 3 年(美光卡在 HBM2e,海力士 2020 年中期量產)。
HBM 的具體價格,各家都諱莫如深,但根據韓媒的説法,HBM 目前是現有 DRAM 產品的 5-6 倍。而現有的 GDDR6 VRAM 的價格大概是每 GB3 美元,如此推算 HBM 的價格是在每 GB 15 美元左右。那一張 H100 SXM 在 HBM 上的花費就是 1500 美元。
雖然今年 HBM 的價格不斷上漲,英偉達、Meta 的高管也親赴海力士 “督工”,可下半年三星的 HBM3 就能逐步量產出貨,再加上韓國雙雄祖傳的擴張血脈,想必到了明年 HBM 就不再是瓶頸。
而真正是瓶頸的則是台積電的 CoWoS 封裝,這是一種 2.5D 的封裝工藝。相比於直接在芯片上打孔(TSV)、佈線(RDL)的 3D 封裝,CoWoS 可以提供更好的成本、散熱以及吞吐帶寬,前兩者對應 HBM,後兩者則是 GPU 的關鍵。
所以想要高存力、高算力的芯片,CoWoS 就是封裝上的唯一解。英偉達、AMD 兩家的四款 GPU 都用上了 CoWoS 就是最好的佐證。
CoWoS 的成本是多少呢?台積電 22 年財報披露了 CoWoS 工藝佔總營收 7%,於是海外分析師 Robert Castellano 根據產能,以及裸晶的尺寸推算出封裝一塊 AI 芯片能給台積電帶來 723 美元的營收[6]。
因此把上述最大的三塊成本項加總,合計在 2,500 美元左右,其中台積電佔了$1,000(邏輯芯片 +CoWoS)左右,SK 海力士佔了 1500 美金(未來三星肯定會染指),再算上 PCB 等其他材料,整體物料成本不超過 3000 美金。
那 H100 賣多少錢呢?35000 美金,直接加了一個零,毛利率超過 90%。過去 10 年英偉達毛利率大概在 60% 上下,現在受高毛利的 A100/A800/H100 的拉動,今年 Q2 英偉達的毛利率已經站上了 70%。
這有點反常識:英偉達嚴重依賴台積電的代工,後者地位無人撼動,甚至是唯一能卡英偉達脖子的核心環節。但這麼一塊 3.5 萬美金的卡,製造它的台積電只能拿 1000 美金,而且只是收入,不是利潤。
不過,用毛利率來定義暴利,對於芯片公司意義不大,要是從沙子開始算,那毛利率更高。一張 4N 工藝的 12 寸晶圓,台積電賣給誰都差不多是 1.5 萬美金一片,英偉達能加個零賣給客户,自然有其訣竅。
這個訣竅的秘密在於:英偉達本質上,是一個偽裝成硬件廠商的軟件公司。
軟硬一體的護城河
英偉達最強大的武器,就藏在毛利率減去淨利率的那一部分。
在本輪 AI 熱潮之前,英偉達的毛利率常年維持在 65% 上下,而淨利率通常只有 30%。而今年 Q2 受高毛利的 A100/A800/H100 的拉動,毛利率站上 70%,淨利率更是高達 45.81%。
近 3 財年英偉達 (NVIDIA) 單季度毛利率與淨利率
英偉達目前在全球有超過 2 萬名員工,大都是高薪的軟硬件工程師,而根據美國獵聘 Glassdoor 的數據,這些崗位的平均年薪基本都高於 20 萬美元/年。

近十個財年英偉達研發費用率
在過去的十年裏,英偉達研發支出的絕對值保持着高速增長,而研發費用率穩態下也維持在 20% 以上。當然,如果某一年的終端需求爆發,比如 2017 年的深度學習、21 年的挖礦、以及今年的大語言模型,營收的分母驟然抬升,研發費用率就會短暫的跌倒 20%,相應地利潤也會非線性暴增。
而在英偉達研發的這麼多項目中最關鍵的無疑是 CUDA。
03 年為解決 DirectX 編程門檻過高的問題,Ian Buck 的團隊推出了一款名為 Brook 的編程模型,這也是後來人們常説的 CUDA 的雛形。06 年 Buck 加入英偉達,並説服黃仁勳研發 CUDA[8]。
因為支持 C 語言環境下的並行計算,使得 CUDA 一躍成為工程師的首選,也讓 GPU 走上了通用處理器(GPGPU)的道路。
在 CUDA 逐漸成熟之後,Buck 再次勸説黃仁勳,讓英偉達未來所有的 GPU 都必須支持 CUDA。06 年 CUDA 立項,07 年推出產品,當時英偉達的年營收僅有 30 億美元,卻在 CUDA 上花費 5 億美金,到了 17 年時,單在 CUDA 上的研發支出就已超過了百億。
曾經有位私有云公司的 CEO 在接受採訪時説過,他們也不是沒想過轉去買 AMD 的卡,但要把這些卡調試到正常運轉至少需要兩個月的時間 [3]。而為了縮短這兩個月,英偉達投入上百億走了 20 年。
芯片行業浮沉大半個世紀,從來沒有一家企業像英偉達一樣,既賣硬件、也賣生態,或者按黃仁勳的話來説:“賣的是準系統”。因此,英偉達對標的也的確不是芯片領域的那些先賢們,而是蘋果——另一家賣系統的公司。
從 07 年推出 CUDA,到成為全球最大的印鈔廠,英偉達也並不是沒有過對手。
08 年當時芯片屆王者英特爾中斷了與英偉達在集顯項目上的合作,推出自己的通用處理器(GPCPU),打算在 PC 領域 “劃江而治”。可英偉達在隨後幾年的產品迭代中,硬是把自家處理器推廣到太空、金融、生物醫療等需要更強大計算能力的領域,於是 10 年英特爾眼看打壓無望,被迫取消了獨立顯卡計劃。
09 年蘋果的開發團隊推出了 OpenCL,希望能憑藉着通用性在 CUDA 身上分一杯羹。但 OpenCL 在深度學習的生態上遠不如 CUDA,許多學習框架要麼是在 CUDA 發佈之後,才會去支持 OpenCL,要麼壓根不支持 OpenCL。於是在深度學習上的掉隊,使得 OpenCL 始終無法觸及更高附加值的業務。
15 年 AlphaGo 開始在圍棋領域初露鋒芒,宣告人工智能的時代已經來臨。此時的英特爾為了趕上這最後一班車,把 AMD 的 GPU 裝入自己的系統芯片內。這可是兩家公司自上世紀 80 年代以來的首次合作。可如今 CPU 老大、老二 +GPU 老二的市值之和僅是 GPU 老大英偉達的 1/4。
從目前看來,英偉達的護城河幾乎是牢不可摧。即使有不少大客户笑裏藏刀,私下裏在研發自己的 GPU,但憑藉着龐大的生態和快速的迭代,這些大客户也無法撬動帝國的裂縫,特斯拉就是明證。英偉達的印鈔機生意,在可見的未來還會持續。
可能唯一讓黃仁勳縈繞烏雲的地方,便是那個客户眾多、需求旺盛但 H100 賣不進去、但人家又在咬牙攻堅的地方——這個地方全世界只有一個。
本文作者:王一川,來源:硅基研習社,原文標題:《瘋狂的 H100》
