HBM, double the challenge

華爾街見聞
2025.08.19 12:35
portai
I'm PortAI, I can summarize articles.

高帶寬內存(HBM)作為下一代 DRAM 技術,憑藉其獨特的 3D 堆疊結構和高帶寬、低延遲的特性,成為 AI 大模型訓練的關鍵組件。SK 海力士在 HBM 市場中表現強勁,市場份額顯著增長,2024 年第二季度超越三星電子,成為全球存儲銷售額榜首。HBM3E 產品因其高性能和低功耗受到 AMD、英偉達等科技巨頭的青睞,SK 海力士是唯一大規模生產 HBM3E 的廠商。

高帶寬內存(HBM)作為下一代動態隨機存取存儲器(DRAM)技術,其核心創新在於獨特的 3D 堆疊結構 —— 通過先進封裝技術將多個 DRAM 芯片(通常為 4 層、8 層甚至 12 層)垂直堆疊。這種結構使 HBM 的帶寬(數據傳輸速率)遠高於 GDDR 等傳統內存解決方案。

憑藉高帶寬、低延遲的特性,HBM 已成為 AI 大模型訓練與推理的關鍵組件。在 AI 芯片中,它扮演着 “L4 緩存” 的角色,能夠顯著提升數據讀寫效率,有效緩解內存帶寬瓶頸,進而大幅增強 AI 模型的運算能力。

HBM 市場,SK 海力士獨領風騷

依託 HBM 技術的領先優勢,SK 海力士在行業中的地位持續攀升。市場數據顯示,自 2024 年第二季度起,美光與 SK 海力士的 DRAM 市場份額持續增長,三星則逐步下滑;而在 HBM 領域,原本與三星近乎平分秋色的格局被打破,截至今年第一季度,兩者份額差距已擴大至兩倍以上。

更具標誌性的是,今年第二季度,SK 海力士以約 21.8 萬億韓元的 DRAM 及 NAND 銷售額,首次超越三星電子(約 21.2 萬億韓元),登頂全球存儲銷售額榜首。這一突破很大程度上得益於其 HBM 產品的強勢表現 —— 作為英偉達的主要獨家供應商,SK 海力士早期雖未在 HBM 市場脱穎而出,但隨着全球 AI 開發熱潮興起,其高性能、高效率的產品需求激增,增長顯著。

其中,第五代高帶寬內存 HBM3E 是關鍵推手。該產品具備高帶寬、低功耗優勢,廣泛應用於 AI 服務器、GPU 等高性能計算領域,2023 至 2024 年間吸引了 AMD、英偉達、微軟、亞馬遜等科技巨頭競相採購,而 SK 海力士是全球唯一大規模生產 HBM3E 的廠商,其 2025 年的 8 層及 12 層 HBM3E 產能已全部售罄。

反觀三星電子,因向英偉達交付延遲錯失良機,尤其在 AI 市場應用最廣的 HBM3E 領域,去年和今年均大幅落後於 SK 海力士,市場份額從去年第二季度的 41% 暴跌至今年第二季度的 17%,甚至有報道稱其未通過英偉達第三次 HBM3E 認證。

對於未來,光大證券預計 HBM 市場需求將持續增長,帶動存儲產業鏈發展;花旗證券則預測,SK 海力士將繼續主導 HBM 市場。顯然,SK 海力士有望在 AI 時代成為 “存儲器恐龍”。

存儲廠商開發HBM 替代方案

面對 SK 海力士的強勢表現,行業內其他廠商紛紛加速技術創新,探索 HBM 的替代方案。

三星重啓 Z-NAND

三星電子在擱置七年後,決定重啓 Z-NAND 內存技術,並將其定位為滿足人工智能(AI)工作負載增長需求的高性能解決方案。這一消息於 2025 年美國未來內存與存儲(FMS)論壇上正式公佈,標誌着三星重新進軍高端企業存儲領域。

三星內存業務執行副總裁 Hwaseok Oh 在活動中表示,公司正全力重新開發 Z-NAND,目標是將其性能提升至傳統 NAND 閃存的 15 倍,同時把功耗降低多達 80%。即將推出的新一代 Z-NAND 將搭載 GPU 發起的直接存儲訪問(GIDS)技術,讓 GPU 可直接從存儲器獲取數據,無需經過 CPU 或 DRAM。該架構旨在最大限度降低延遲,加速大型 AI 模型的訓練與推理進程。

Z-NAND 的復甦,折射出行業正發生廣泛轉變 —— 快速擴展的 AI 模型已逐漸超越傳統存儲基礎設施的承載能力。在當前系統中,數據需從 SSD 經 CPU 傳至 DRAM,再送達 GPU,這一過程形成嚴重瓶頸,既導致性能下降,又增加了能耗。而三星支持 GIDS 的架構,可消除這些瓶頸,允許 GPU 將大型數據集從存儲器直接加載到 VRAM 中。Oh 指出,這種直接集成能顯著縮短大型語言模型(LLM)及其他計算密集型 AI 應用的訓練週期。

事實上,三星早在 2018 年就首次推出 Z-NAND 技術,併發布了面向企業級和高性能計算(HPC)應用的 SZ985 Z-SSD。這款 800GB 固態硬盤基於 48 層 V-NAND 和超低延遲控制器,順序讀取速度高達 3200MB/s,隨機讀取性能達 750K IOPS、寫入速度達 170K IOPS,延遲均低於 20 微秒,性能較現有 SSD 高出五倍以上,讀取速度更是比傳統 3 位 V-NAND 快十倍以上。此外,SZ985 配備 1.5GB 節能 LPDDR4 DRAM,額定寫入容量高達 42PB(相當於可存儲全高清電影 840 萬次),並憑藉 200 萬小時的平均故障間隔時間(MTBF)保障可靠性。

X-HBM 架構重磅登場

NEO Semiconductor 則重磅推出全球首款適用於 AI 芯片的超高帶寬內存(X-HBM)架構。該架構基於其自研的 3D X-DRAM 技術,成功突破傳統 HBM 在帶寬與容量上的固有瓶頸,其發佈或將引領內存產業邁入 AI 時代的 “超級內存” 新階段。

相比之下,目前仍處於開發階段、預計 2030 年左右上市的 HBM5,僅支持 4K 位數據總線和每芯片 40Gbit 的容量;韓國科學技術院(KAIST)的最新研究預測,即便是預計 2040 年左右推出的 HBM8,也僅能實現 16K 位總線和每芯片 80Gbit 的容量。

而 X-HBM 卻憑藉 32K 位總線和每芯片 512Gbit 的容量,可讓 AI 芯片設計人員直接繞過傳統 HBM 技術需耗時十年才能逐步突破的性能瓶頸。據介紹,X-HBM 的帶寬達到現有內存技術的 16 倍,密度為現有技術的 10 倍 —— 其 32Kbit 數據總線與單芯片最高 512Gbit 的存儲容量所帶來的卓越性能,能顯著打破傳統 HBM 的侷限性,精準滿足生成式 AI 與高性能計算日益增長的需求。

Saimemory 開發堆疊式 DRAM

由軟銀、英特爾與東京大學聯合創立的 Saimemory,正研發全新堆疊式 DRAM 架構,目標是成為 HBM 的直接替代方案,甚至實現性能超越。

這家新公司的技術路徑聚焦於 3D 堆疊架構優化:通過垂直堆疊多顆 DRAM 芯片,並改進芯片間互連技術(例如採用英特爾的嵌入式多芯片互連橋接技術 EMIB),在提升存儲容量的同時降低數據傳輸功耗。根據規劃,其目標產品將實現容量較傳統 DRAM 提升至少一倍,功耗較 HBM 降低 40%-50%,且成本顯著低於現有 HBM 方案。

這一技術路線與三星、NEO Semiconductor 等企業形成差異化 —— 後者聚焦容量提升,目標實現單模塊 512GB 容量;而 Saimemory 更側重解決 AI 數據中心的電力消耗痛點,契合當前綠色計算的行業趨勢。

在技術合作層面,英特爾提供先進封裝技術積累,東京大學等日本學術機構貢獻存儲架構專利,軟銀則以 30 億日元注資成為最大股東。初期 150 億日元研發資金將用於 2027 年前完成原型設計及量產評估,計劃 2030 年實現商業化落地。

閃迪聯手 SK 海力士推進 HBF 高帶寬閃存

閃迪與 SK 海力士近日宣佈簽署諒解備忘錄,雙方將聯合制定高帶寬閃存(High Bandwidth Flash,HBF)規範。這一合作源於閃迪今年 2 月首次提出的 HBF 概念 —— 一種專為 AI 領域設計的新型存儲架構,其核心是融合 3D NAND 閃存與高帶寬存儲器(HBM)的技術特性。按計劃,閃迪將於 2026 年下半年推出首批 HBF 內存樣品,採用該技術的 AI 推理設備樣品則預計在 2027 年初上市。

作為基於 NAND 閃存的內存技術,HBF 創新性地採用類 HBM 封裝形式,相較成本高昂的傳統 HBM,能顯著提升存儲容量並降低成本,同時具備數據斷電保留的非易失性優勢。這一突破標誌着業界首次將閃存的存儲特性與類 DRAM 的高帶寬性能整合到單一堆棧中,有望重塑 AI 模型大規模數據訪問與處理的模式。

與完全依賴 DRAM 的傳統 HBM 相比,HBF 通過用 NAND 閃存替代部分內存堆棧,在適度犧牲原始延遲的前提下,可在成本與帶寬接近 DRAM 型 HBM 的基礎上,將容量提升至後者的 8-16 倍。此外,不同於需持續供電以保存數據的 DRAM,NAND 的非易失性讓 HBF 能以更低能耗實現持久存儲。

多維度架構創新降低HBM 依賴

除了在存儲技術上持續創新,廠商們也在積極探索 AI 領域的架構革新,以期降低對 HBM 的依賴。

存算一體架構

上世紀 40 年代,隨着現代史上第一台計算機的誕生,基於 “存儲 - 計算分離” 原理的馮・諾依曼架構應運而生,此後的芯片設計也基本沿用這一架構。在近 70 年的現代芯片行業發展中,技術進步多集中於軟件與硬件的優化設計,計算機的底層架構始終未發生根本性改變。

存算一體(Processing-In-Memory, PIM 或 Compute-in-Memory, CIM)正是在這一背景下被提出的創新架構。其核心理念是在存儲器本體或鄰近位置集成計算功能,從而規避傳統架構中 “計算 — 存儲 — 數據搬運” 的固有瓶頸。通過在存儲單元內部直接部署運算單元,物理上縮短數據傳輸距離,存算一體架構能夠整合計算與存儲單元,優化數據傳輸路徑,突破傳統芯片的算力天花板。這不僅能縮短系統響應時間,更能使能效比實現數量級提升。一旦技術成熟,有望將對高帶寬內存的依賴度降低一個數量級,部分替代 HBM 的功能。

華為的 AI 突破性技術成果

華為近期發佈的 UCM(推理記憶數據管理器),是一款以 KV Cache(鍵值緩存)為核心的推理加速套件。它融合了多種緩存加速算法工具,可對推理過程中產生的 KV Cache 記憶數據進行分級管理,有效擴大推理上下文窗口,從而實現高吞吐、低時延的推理體驗,降低每個 Token(詞元)的推理成本。通過這一創新架構設計,UCM 能夠減少對高帶寬內存(HBM)的依賴,同時顯著提升國產大模型的推理性能。

未來將是多層級架構的時代

無論是訓練還是推理場景,算力與存儲都是率先受益的領域,二者將成為決定未來十年 AI 競爭格局的關鍵因素。

與 GPGPU 產品類似,HBM(尤其是 HBM3 及以上規格)需求旺盛,且長期被國外廠商壟斷。2025 年初,HBM3 芯片現貨價格較 2024 年初暴漲 300%,而單台 AI 服務器的 DRAM 用量更是達到傳統服務器的 8 倍。從市場格局看,海外廠商仍佔據主導地位:SK 海力士以 53% 的份額領先,且率先實現 HBM3E 量產;三星電子佔比 38%,計劃 2025 年將 HBM 供應量提升至去年的兩倍;美光科技目前份額為 10%,目標是 2025 年將市佔率提升至 20% 以上。

儘管 HBM 憑藉卓越性能在高端 AI 應用領域站穩腳跟,但隨着其他內存技術在成本控制、性能提升及功耗優化等方面的持續突破,其未來或將面臨新興技術的競爭壓力。不過從短期來看,HBM 仍是高帶寬需求場景的首選方案。

從長期發展趨勢看,市場將隨技術演進與應用需求變化不斷調整優化。未來 AI 內存市場並非簡單的 “替代與被替代” 關係,HBM 替代方案的創新呈現出 “架構哲學的多樣性”,而非單一技術迭代。可以預見,AI 計算與內存領域不會出現全面取代 HBM 的 “唯一贏家”,取而代之的將是更復雜、分散化且貼合具體場景的內存層級結構 —— 單一內存解決方案主導高性能計算的時代正在落幕。

未來的 AI 內存版圖將是異構多元的層級體系:HBM 聚焦訓練場景,PIM 內存服務於高能效推理,專用片上內存架構適配超低延遲應用,新型堆疊 DRAM 與光子互連等技術也將在系統中佔據一席之地。各類技術針對特定工作負載實現精準優化,共同構成 AI 時代的內存生態。

本文作者:鵬程,來源:半導體產業縱橫,原文標題:《HBM,挑戰加倍》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。