
你想要 H100 嗎?

英偉達讓你先回答這些問題。
根據 HPCwire 報道,在最近的財報電話會議上,全球首富、特斯拉首席執行官埃隆·馬斯克用幾句話總結了英偉達企業級 GPU 的短缺問題。
“我們使用了大量 Nvidia 硬件。我們將……以 Nvidia 向我們提供硬件的速度提供硬件。” 馬斯克説道。“我不知道他們是否能為我們提供足夠的 GPU……但他們不能。他們有很多顧客。” 他後來補充説。
馬斯克只是等待 Nvidia 用於人工智能的 GPU 的眾多客户中的一個人。
Nvidia 首席執行官黃仁勳表示,ChatGPT 是人工智能的 iPhone 時刻。Nvidia GPU 是企業硬件領域的 iPhone。Nvidia 不會優先考慮僅向擁有大量現金的客户提供有限的炙手可熱的 GPU 供應。Nvidia 在提供 GPU 之前會篩選客户的計劃、用途和工作負載。這樣做的目的是確保工作負載與 GPU 的功能保持一致,並確保客户是 Nvidia 硬件的良好管理者。
Nvidia 首席財務官 Colette Kress 在本週花旗全球技術大會的分析師會議上表示,客户需要滿足特定的 Nvidia 指導方針才能考慮使用 GPU 。
想要買 H100?先回答這些問題
一、您有 PO 或採購訂單嗎?
這是 Nvidia 禮貌的説法:“給我錢吧。”(氪金?)
Kress 表示,採購訂單可以讓人們深入瞭解該公司的計劃以及英偉達在這些計劃中所扮演的角色。她表示,採購訂單有助於英偉達從頭開始為客户進行規劃。
“我們與許多大公司合作多年。它們確實幫助我們瞭解規劃流程和工作,這是我們流程的一部分。這種方法也某種程度上幫助了我們。” Kress 説。
英特爾首席財務官 Dave Zinsner 表示,瞭解客户的計劃為追加銷售更多產品(軟件或基礎設施)以滿足特定要求打開了大門。
Nvidia 還銷售其人工智能軟件、CPU 和網絡硬件以及 GPU。
二、您準備好接收 GPU 了嗎?
Nvidia 希望瞭解處理 GPU 超高速的計算設置以及處理 H100 引起的熱浪的冷卻要求。
建立數據中心並不是一個快速的過程;克雷斯説,這需要時間和計劃。一些客户還希望在設置的後期添加計算和網絡。
“我們正在尋找您期望何時需要我們在……您的數據中心提供服務,” Kress 説。
三、您的模型有多大,需要多少計算?
Nvidia 與一些公司密切合作,瞭解他們的人工智能戰略計劃以及模型的規模和計算要求。
該公司的 A100 和 H100 GPU 已用於訓練 GPT-3.5 和 GPT-4 等模型,這些模型擁有數十億個參數。
但對於一些較小的模型,Nvidia 會推薦其他 GPU。Kress 根據其數據中心的型號和設置給出了 L40S 的示例。
“你可以採用 OEM 或 ODM 服務器——我們可能會推出 100 台——他們將能夠在該配置中放入四張 L40S [卡]。對於小型模型來説,這是一個很棒的服務器,不僅可以進行訓練,還可以進行推理。” Kress 説道。
四、不忽視小客户
在 Kress 的演講中,她強調英偉達並不會忽視小客户,例如 CoreWeave 就通過了 Nvidia 的測試,是擁有幾個 H100 GPU 的幸運小型雲提供商之一。該雲提供商僅提供 GPU 計算,Nvidia 已持有該公司的少量股份。
“CoreWeave ……專門從事加速計算;這是他們的目標。CoreWeave 在採用速度和設置速度方面也擁有相當多的技能,” Kress 説。
該雲提供商已與大客户合作建立計算基礎設施。
“他們很小,他們確實有一些分配,但是……非常小,” Kress 説。
誰在獲得英偉達 GPU?
Nvidia 正在全球範圍內向客户和行業分配 GPU。
Nvidia 將最多的 GPU 分配給雲服務提供商,為公司帶來了最大的收入。谷歌正在為客户提供 A3 超級計算機,該計算機擁有多達 26,000 個 H100 GPU 和 26 exaflops 的計算能力。AWS 在 7 月底才發佈了其第一個 H100 EC2 實例,微軟很快也緊隨其後,推出了 ND H100 v5 系列 Azure 虛擬機(該虛擬機已完成測試)。
繼雲提供商之後,第二大 GPU 分配給了消費互聯網公司和大型企業。
“CSP 還向企業銷售產品,併為研究提供計算支持,為大型大學提供支持,也為企業提供服務,” Kress 説。
不過,從 Kress 的報告中我們可以看到,Nvidia 的 GPU 很快就被搶購一空,這種情況將持續到 2024 年第二季度末。從 2024 年第三季度末到中期,庫存水平將保持在 43 億美元至 52 億美元之間。明年的。
“每個季度末我們手頭上的庫存都相當平穩,” Kress 説。
但英偉達正在努力通過增加 CoWoS 封裝(將內存和芯片結合在一起)的供應來緩解短缺問題,以幫助製造 GPU 的台積電。英偉達正在與現有合作伙伴以及尋找新的合作伙伴合作,以幫助解決台積電增加產能的壓力。
“即使我們進入 2025 財年,我們預計 [CoWoS] 供應量每個季度都會增加。而且我們確實預計,隨着我們整體 CoWoS 產能的增加,某些大型 [合作伙伴] 會加大力度,” Kress 説道。
Nvidia 已將其 GPU 採購承諾在 2024 年第一季度提高至 153 億美元,在第二季度提高至 193 億美元,這表明將有更多 GPU 進入市場。
Kress 説:“我們還與一些供應商做出了長期購買承諾和預付款,以確保我們能夠幫助他們,因為他們能夠滿足他們的需求。”
英偉達製造合作伙伴台積電董事長劉德音表示,“目前,我們無法 100% 滿足客户的需求,但我們盡力支持 80% 左右。我們認為這是暫時的現象。我們擴大先進芯片封裝產能(CoWos)後,一年半之內應該會得到緩解。”
除了嚴格審核 GPU 購買者的資格外,據 theinformation 的最新報道,英偉達正在利用其在人工智能硬件領域的主導地位來產生雲軟件收入。此舉使英偉達與購買其芯片的傳統雲提供商展開競爭。
從英偉達租用硬件?
Theinformation 報道指出,去年,英偉達向亞馬遜網絡服務和其他雲提供商提出了一項不同尋常的提議——英偉達希望能夠在雲提供商的數據中心中租用英偉達支持的服務器,這樣它就可以將相同的服務器租給人工智能軟件開發商。這些開發商包括一些世界上最大的雲客户。值得一提的是,這些提供商長期以來一直是英偉達專用人工智能服務器芯片的最大買家。
隨着討論的進展,英偉達的影響力不斷增加。自 11 月份 OpenAI 的 ChatGPT 推出以來,人工智能軟件開發人員對 Nvidia 支持的服務器的需求激增,雲提供商很快就跟不上了。 在那個微妙的時刻,英偉達找到了一種本質上與雲提供商爭奪客户的方法。
英偉達的王牌是該公司發佈的一款備受期待的新型人工智能芯片 H100,這是傳統雲提供商所需要的。據一位直接瞭解該決定的人士透露,微軟、谷歌和甲骨文同意了 Nvidia 的提議,但 AWS 沒有。
此舉展示了英偉達如何利用其在人工智能硬件(即圖形處理單元)領域的主導地位來追求新目標:通過與其芯片的企業用户的直接關係獲得雲軟件收入。這個權力遊戲並不一定會奪走雲提供商的現有收入,因為英偉達向他們支付服務器租金,然後向自己的客户收取溢價。但這種安排可能會削弱雲提供商的影響力,並幫助英偉達向可能從 AWS、微軟、谷歌和甲骨文購買該軟件的客户出售自己的人工智能相關軟件。
AWS 和谷歌雲前經理約書亞·伯恩斯坦 (Joshua Bernstein) 表示:“它將 Nvidia 的品牌置於雲提供商品牌之上。” 他表示:“這表明英偉達意識到自己在市場中的地位,以及需要採取哪些措施才能保持這一地位。”
Nvidia 的雲服務名為 DGX Cloud,是 Nvidia 的野心超越銷售芯片的最新例子。Nvidia 最近還開始向 Adobe、Getty Images 和 Shutterstock 等客户單獨銷售 AI 相關軟件,這些客户表示他們正在使用該軟件來構建 AI 模型。Nvidia 可以利用 DGX Cloud 的客户關係來銷售更多此類人工智能軟件。(Nvidia 發言人 Liz Archibald 表示,DGX 不是縮寫詞,這些字母不代表任何東西。)
當上個月在季度財報電話會議上被問及新的雲服務時,Nvidia 首席執行官黃仁勳表示雲提供商 “喜歡它”。然而,參與的雲提供商的發言人沒有對本文發表評論,除了 3 月份發佈的 Oracle 新聞稿外,沒有一家提供商在其網站上宣傳該服務,AWS 的發言人也拒絕置評。
與雲廠商,必有一戰?
“我完全理解為什麼亞馬遜不參與 [Nvidia 雲服務],因為歸根結底,真正擁有客户關係的是 Nvidia,伯恩斯坦分析師史黛西·拉斯貢 (Stacy Rasgon) 表示。Rasgon 指出,相比之下,同意推出 DGX Cloud 的雲提供商規模小於 AWS,因此理論上他們可以相對於 AWS 獲得市場份額。
Nvidia 副總裁兼總經理 Charlie Boyle 在接受 theinformation 採訪時反駁了 Nvidia 正在與傳統雲提供商競爭的觀點,稱新的雲服務 “並不是 Nvidia 控制客户而不是雲提供商。這是一個共享的東西。” 在談到 AWS 拒絕 Nvidia 服務時,他表示 AWS 一直是 “偉大的合作伙伴……但每個人的業務都有自己的限制”。

新興的 Nvidia 雲服務可幫助客户開發人工智能模型,併為他們提供可為其業務定製的預訓練模型。這些預先訓練的模型包括 Nvidia 用於生成文本的 Megatron 530B 模型(類似於 ChatGPT),以及用於識別視頻片段中的人物的 PeopleNet 視覺模型。
Nvidia DGX 雲服務的客户已經包括一些雲服務的最大買家,例如 IT 軟件巨頭 ServiceNow、生物製藥公司安進 (Amgen) 和保險公司 CCC Intelligent Solutions。黃仁勳上個月告訴分析師,DGX Cloud 取得了 “巨大的成功”,但沒有透露其收入的具體細節。
同樣重要的是,雲服務使英偉達能夠銷售用於管理用於開發人工智能模型的大型數據集的軟件。Nvidia 軟件與 Databricks、Snowflake 以及微軟的類似產品競爭。Nvidia 在 8 月份的季度報告中告訴投資者,向開發涉及人工智能或虛擬現實的應用程序的公司銷售軟件可能會帶來 3000 億美元的潛在收入機會。該公司首席財務官科萊特·克雷斯 (Colette Kress) 在 8 月份的季度財報電話會議上對分析師表示,軟件業務每年創收數億美元,與芯片業務相比只是九牛一毛,但仍有望實現增長。
對於傳統雲提供商來説,DGX Cloud 的崛起有可能將他們變成中介。例如,ServiceNow 使用 DGX Cloud 開發人工智能來總結 IT 請求併為客户服務聊天機器人提供支持。這家 IT 軟件巨頭的高級副總裁約翰·西格勒 (John Sigler) 表示,Nvidia 的服務使 ServiceNow 可以更輕鬆地在自己的數據中心以及跨多個雲提供商同時運行其新的人工智能軟件,因為它可以使用來自 Nvidia “單一軟件平台” ” 來管理流程。
因此,ServiceNow 不需要跟蹤哪個傳統雲提供商在幕後為其人工智能開發提供服務器。“如果 [Nvidia 的雲服務] 使用微軟或谷歌的數據中心,那就完全沒問題,” Sigler 説。(根據 The Information 的數據,ServiceNow 每年在微軟雲服務上花費至少 7500 萬美元。)
從英偉達的角度來看,在傳統雲提供商的數據中心內推出類似特洛伊木馬的雲服務是公平的。雖然 Nvidia 和雲提供商彼此需要,關係變得更加複雜和有爭議。AWS、微軟和谷歌已經向雲客户出售或正在開發自己的人工智能服務器芯片,希望減少對英偉達芯片的依賴,因此英偉達認為他們是競爭對手的想法是正確的。
Nvidia 已採取其他步驟來試圖削弱傳統雲提供商,那就是支持他們的競爭對手。它向專門租賃 GPU 雲服務器的新貴雲公司提供了寶貴的 H100 GPU 芯片,包括 CoreWeave、Lambda Labs 和 Crusoe Energy ,而傳統雲公司卻在努力啓動和運行自己的新 H100 服務器。
獲得對英偉達芯片的特殊訪問權並不是免費的。在強調其王者地位的一個不尋常的舉動中,芯片設計者詢問並收到了那些較小的人工智能雲提供商的客户的姓名,原因無法得知。但這種做法讓英偉達獲得了更多有關未來可以向其出售服務的雲客户的信息。
英偉達正處於前所未有的境地。迄今為止,它是 OpenAI 的 ChatGPT 引發的對話式 AI 繁榮的最大受益者。隨着雲提供商和其他公司競相為企業和消費者推出新的人工智能服務,它已經產生了價值數百億美元的新訂單,使這家芯片設計公司的市值達到了超過 1 萬億美元。
我不是,我沒有,別瞎説
沒有證據表明 Nvidia 強迫傳統雲提供商推出 DGX Cloud,或強制要求他們將收到的 H100 芯片的一定比例分配給該服務。但由於對其芯片的需求超過了供應,美國聯邦貿易委員會的反壟斷監管機構最近在一篇博文中暗示,他們正在關注 Nvidia 在 “高度集中的市場” 中是否有不公平使用的跡象。該機構去年起訴英偉達,要求其停止收購芯片設計公司 Arm,英偉達最終達成了這項交易。
Nvidia 表示,其雲服務主要旨在向雲提供商展示在其數據中心配置 GPU 服務器的正確方法,以便它們更好地工作。這可以讓 GPU 在客户眼中比其他專注於人工智能的硬件更受歡迎。Nvidia 企業計算副總裁 Manuvir Das 本週在舊金山舉行的高盛活動上表示,該公司 DGX Cloud 的目標是讓雲提供商説:“非常感謝 Nvidia,現在我擴大規模了。” 換句話説,雲服務可以幫助英偉達保持其對人工智能硬件市場的控制。(Das 是向黃彙報的大約 40 名高管之一。)
據幾位直接瞭解該服務的人士透露,Nvidia 的工程師利用他們對該公司芯片的深入瞭解來調整 DGX 雲服務器,使其比雲提供商租用的其他專注於人工智能的服務器表現更好。
Boyle 表示,Nvidia 使用其軟件來提高 DGX 雲服務器的性能。黃仁勳則在 8 月份的分析師電話會議上表示,來自 Nvidia 和雲提供商 “攜手” 提高駐留在提供商數據中心的 DGX Cloud 的 Nvidia GPU 服務器的性能。
不管怎樣,至少一位 DGX Cloud 客户表示已經注意到了其中的差異。銷售用於構建人工智能應用程序的軟件的 Anyscale 聯合創始人 Ion Stoica 表示,與傳統雲提供商為客户提供的 GPU 服務器相比,DGX Cloud 具有 “高性能且在定價方面非常有競爭力”。
他表示,DGX Cloud 可能會成為一項大業務,因為 GPU 服務器很難找到,以至於公司正在使用多個雲提供商來儘可能多地訪問它們。他説,由於 DGX Cloud 跨多個雲提供商運行,因此它可能成為人工智能開發人員的一站式商店。
Nvidia 還將 DGX Cloud 定位為客户快速訪問 GPU 服務器的一種方式,而無需向雲提供商做出大量的、多年的承諾來保證這種訪問。DGX Cloud 客户可以快速租用具有 8 個 A100 GPU 的雲服務器,每月起價 37,000 美元。Boyle 拒絕提供 H100 GPU 的定價。在 AWS,A100 GPU 服務器每小時的成本在 32 到 40 美元之間,即每月 24,000 美元到 30,000 美元之間。
“我們定價為優質服務,我們絕對不會在市場上試圖與任何人進行價格競爭,”Boyle 説。
摩爾定律已失效,所以不要購買 CPU
回到 Kress 的演講,據報道,她在演講中再次無情地扼殺了摩爾定律,表明 CPU 的時代已經結束,GPU 的時代已經到來。
“摩爾定律的消亡確實引發了這樣一種觀點 ‘我們該如何處理我們的 CPU 服務器?這是一個可升級的解決方案嗎?或者現在是轉向加速計算的時候了嗎?”
Kress 表示,與裝滿 CPU 的服務器機房相比,GPU 的性價比更高,並且可以在更小的空間內完成更多的計算。
“你必須能夠提高性能……使用更少的能源,更快地完成任務,” Kress 説道,並補充道,“GPU ……可以做到這一點。所以我們認為這只是一個開始。”
與此同時,大多數小型 HPC 用户可能必須耐心等待 GPU 及其結果。
本文來源:半導體行業觀察(ID:icbank),原文標題:《你想要 H100 嗎?》
