
Track Hyper | Samsung: Vowing to dethrone Micron from the top spot in HBM

曾經犯過錯,但王者願糾偏。
作者:周源/華爾街見聞
從行業的情況看,GenAI(生成式人工智能:Generative Artificial Intelligence)的核心要件有兩個:GPU 和 HBM,後者提供了當今可能的最高內存帶寬,而 GPU 的性能並非由主頻決定,而是受制於內存帶寬。
GPU 領導公司英偉達在過去一年獲得了令人驚訝的市值增長速度,但英偉達所有 AI 加速卡仍不能缺少 HBM 公司的支持。三星半導體業務主管 Kyung Kye-hyun 説,“HBM 的領導地位正在向我們襲來。”
帶寬的作用與容量直接相關,容量大而帶寬窄,就會影響 GPU 性能。目前,HBM 最高容量型號是三星在今年 2 月推出的 HBM3E 12H,堆棧數達到了 12 層。
最近,三星電子在內存芯片部門內成立高帶寬內存(HBM)團隊,以提高產量。這是三星繼今年 1 月成立 HBM 特別工作組後,建立的第二個 HBM 專門團隊。2019 年,三星電子誤判 HBM 的市場前景,故而解散當時該公司的 HBM 團隊。
現在,三星電子決心改正這個錯誤,對現在成立的 HBM 團隊寄予厚望:搶佔在 HBM 領域的領導地位。
內存帶寬決定 AI 加速卡性能
由 ChatGPT 和 Sora 帶來的 GenAI 應用需求正在改變世界。
這刺激了 AI PC、AI 服務器、AI 手機和 AI 處理器的巨大需求。這些處理器中的大多數(包括 AMD 和英偉達的計算 GPU、英特爾的 Gaudi、AWS 的 Inferentia 和 Trainium 等專用處理器及 FPGA)都使用了 HBM,因為 HBM 提供了當前最高的內存帶寬。
與 GDDR6/GDDR6X 或 LPDDR5/LPDDR5X 相比,HBM 在帶寬需求大的應用程序中如此受歡迎的原因,在於 HBM 每個堆棧的速度高達 1.2 TB/s,這是任何商業內存都達不到的帶寬速度。
但如此優異的表現,代價就是成本過高,技術難度過大。HBM 現在實際上是先進封裝的結果,這限制了供應並增加了成本。
用於 HBM 的 DRAM 設備,與用於商用內存(如 DDR4 和 DDR5)的典型 DRAM IC 完全不同。內存生產商必須製造 8 或 12 個 DRAM 設備並完成測試;之後,將之封裝在預先測試的高速邏輯層之上,接着再測試整個封裝。這個過程,既昂貴又漫長。
用於 HBM 的 DRAM 設備,必須具有寬接口,因此其物理尺寸更大,故而比常規 DRAM IC 更昂貴。
正因為如此,所以要滿足 AI 服務器的需求,同步增加 HBM 內存產量,將影響所有 DRAM 類型的供應規模。
從物理結構看,HBM 成品是將很多個 DDR 芯片堆疊起來,再和 GPU 封裝在一起,實現大容量、高位寬的 DDR 組合陣列。
HBM 在 AI 加速卡的物理結構中,處於左右兩側,由 DDR 顆粒堆疊而成,中間是 GPU。
由於 HBM 的成本制約,故而給了 DDR、GDDR 和 LPDDR 等類型的商業內存一線生機。這些品類也被用於對高帶寬有需求的應用,像 AI、HPC、圖形和工作站。美光科技曾對外表示,那些在容量和帶寬方面有優化的商業內存的技術開發正在加速推進,因為 AI 硬件開發公司對之有明確需求。
美光計算和網絡業務部高級經理 Krishna Yalamanchi 對 HBM 的看法看似多餘。
“HBM 非常有應用前景,市場未來增長潛力巨大。” Yalamanchi 説,“目前,對 HBM 的應用主要集中在 AI、HPC(高性能計算)等需要高帶寬、高密度和低功耗的領域。隨着越來越多的處理器和平台採用 HBM,該市場預計將快速增長。”
這在當下,這樣的看法並不有何新奇。但是這實際上代表了美光的看法,而美光是如假包換的行業巨頭,雖然排名在三星和海力士之後。
據 Gartner 預測,對 HBM 的需求預計將從 2022 年的 1.23 億 GB,激增至 2027 年的 9.72 億 GB。這意味着 HBM 需求預計將從 2022 年佔 DRAM 整體的 0.5%,增加到 2027 年的 1.6%。
如此規模的增長,主要是因為標準 AI 和生成 AI 應用中對 HBM 的需求在持續加速升級。
Gartner 分析師認為,HBM 的整體市場規模將從 2022 年的 11 億美元增至 2027 年的 52 億美元,HBM 價格相對 2022 年的水平也將下降 40%。
由於技術進步和 GenAI 的應用需求不斷膨脹,HBM 堆棧的密度也將隨之增加:從 2022 年的 16 GB 增加到 2027 年的 48GB。
據美光預計,2026 年能推出 64GB HBM Next(HBM4,第六代)堆棧。HBM3(第四代)和 HBM4 規範允許構建 16-Hi 堆棧,因此可以使用 16 個 32GB 器件構建 64GB HBM 模塊。
三星確立雙軌 AI 半導體戰略
HBM 如此難做而如此昂貴,故而在 ChatGPT 問世之前,就連巨頭公司也出現了需求誤判。
三星電子,目前在 HBM 領域市佔率位居第二,落後於 SK 海力士。這或許與三星電子在 2019 年誤判 HBM 技術需求前景有關。那年,三星電子 “竟然” 解散了其 HBM 業務和技術團隊。
為了把同屬韓國的 “友商” SK 海力士拉下馬,稱霸 HBM 市場,三星電子於今年 1 月和 3 月先後成立兩個 HBM 團隊,部分成員來自設備解決方案部門,主要負責 DRAM 和 NAND 閃存的開發和銷售;領導人是三星執行副總裁兼 DRAM 產品和技術主管 Hwang Sang-joon。
為了趕上並超越 SK 海力士,三星 HBM 團隊計劃於今年下半年量產 HBM3E,並於 2025 年生產後續型號 HBM4。
值得注意的是,4 月 1 日,三星電子 DS 部門負責人慶桂顯宣佈,為提升在 AI 領域的競爭力,公司內部實施了雙軌 AI 半導體戰略,專注研發 AI 用存儲芯片和 AI 算力芯片的發展。HwangSang-joon 領導的 HBM 團隊,將同時加速 AI 推理芯片 Mach-2 的開發進程。
慶桂顯指出,市場對 AI 推理芯片 Mach-1 的需求日益增長,部分客户已表達了使用 Mach 系列芯片處理超過 1000B 參數的大型模型推理的需求。這一趨勢促使三星電子加快下一代 Mach-2 芯片的研發步伐,以滿足市場對高效能 AI 芯片的迫切需求。
Mach-1 目前正在開發中,預計今年年內將推出原型產品。這款芯片採用 SoC(片上系統)形式,用於 AI 推理加速,可減少 GPU 與 HBM 的瓶頸。
Mach-1 是一種高能效 AI 推理芯片。三星電子計劃於 2024 年末、2025 年初投入應用,韓國 IT 巨頭 Naver 考慮大批量購入,交易金額有望達 1 萬億韓元(約合 7.41 億美元)。
HBM3E 是 HBM3 的擴展版本,內存容量 144GB,提供每秒 1.5TB 的帶寬,相當於 1 秒能處理 230 部 5GB 大小的全高清電影。作為一種更快、更大的內存,HBM3E 可加速生成式 AI 和大型語言模型,同時能推進 HPC 工作負載的科學計算。
2023 年 8 月 9 日,黃仁勳發佈 GH200 Grace Hopper 超級芯片,這是 HBM3E 的首次亮相。因此,GH200 Grace Hopper 成為全球首款 HBM3E GPU。
目前,HBM3E 是 AI 應用中性能最佳的 DRAM,技術代際為五代。HBM 代際共分五代:首代為 HBM,第二代是 HBM2,HBM2E 屬於第三代,第四代則為 HMB3。
據三星電子的半導體業務負責人 Kyung Kye-hyun(池慶賢),想要 HBM4 的客户正在與之做聯合開發定製,但他沒有透露合作方是哪家公司。慶桂顯則表示,多家客户有意與三星電子合作開發定製版的下一代 HBM4(第六代際)內存。
3 月 26 日,在加利福尼亞州聖何塞舉行的全球芯片製造商聚會 Memcon 2024 上,三星電子預計,該公司今年的 HBM 存儲器產量將比 2023 年的產量增加 2.9 倍。
