
Google Releases KV Cache Compression Technology, Impacting Storage Demand Expectations, US Storage Stocks Plunge Collectively
谷歌推出新型內存壓縮技術 TurboQuant,可將大語言模型鍵值緩存壓縮至 3 比特,實現 6 倍內存縮減與最高 8 倍加速,引發市場對存儲需求前景的擔憂,閃迪、美光、西部數據等存儲芯片股週三集體重挫。摩根士丹利分析指出,該技術僅作用於推理階段,並非硬件需求減少,反而可能通過降低部署成本激活更多 AI 應用場景。
谷歌發佈的一項新型 AI 內存壓縮技術,不僅在科技界引發了對底層算力效率革命的狂歡,也讓美股存儲芯片板塊經歷了一場劇烈的估值重估,但華爾街機構卻從這場恐慌中看到了買入良機。
週三,受該技術可能大幅削減 AI 硬件需求預期的衝擊,美股存儲芯片板塊盤中遭遇重挫。截至收盤,存儲芯片與硬件供應鏈指數下跌 2.08%,閃迪、美光科技等頭部企業均顯著收跌,凸顯出市場對需求前景的防禦性反應。
然而,在科技圈將這一突破性技術捧為 “真實版 Pied Piper” 和 “谷歌版 DeepSeek” 的同時,華爾街投行的表態卻截然不同。多位分析師指出,該技術的實際影響被市場過度計價,並直言投資者應藉機買入回調的內存概念股。
儘管實驗室數據展示了驚人的壓縮效率,但從宏觀經濟學與算力部署的真實演進來看,這項旨在打破 AI 內存瓶頸的技術,最終可能不僅不會摧毀存儲需求,反而會成為推動行業進一步擴張的催化劑。
存儲板塊應聲下挫
谷歌發佈名為 TurboQuant 的內存壓縮算法後,市場對存儲硬件長期需求的擔憂迅速蔓延,導致相關資產遭到拋售。
週三盤中,存儲芯片板塊集體下探。閃迪一度大跌 6.5%,美光科技跌 4%,西部數據和希捷科技分別跌超 4% 和 5%。隨着市場情緒在尾盤有所消化,相關個股跌幅收窄。截至收盤,閃迪和美光科技均跌超 3.4%,希捷科技收跌 2.6%,西部數據跌幅收窄至 1.6%。當日,存儲芯片與硬件供應鏈指數報收於 113.03 點,盤中一度觸及 109 點的日內低點。
引發市場恐慌的直接原因,是谷歌宣稱 TurboQuant 可在不損失準確性的前提下,將大型語言模型運行時的緩存內存佔用至少減少 6 倍。在高度依賴硬件規模擴張的 AI 軍備競賽邏輯下,任何可能削減物理內存採購量的技術進步,都足以讓本已處於高估值的芯片板塊面臨拋壓。
“真實版 Pied Piper” 與 “谷歌版 DeepSeek”
在科技業界,TurboQuant 的發佈被視為解決大語言模型高昂運行成本的重要里程碑。該技術專為解決 AI 系統中的鍵值緩存(KV Cache)瓶頸而設計,核心是將原本佔用大量空間的緩存壓縮至 3 比特。
據媒體報道,谷歌採用兩步壓縮法:先通過 PolarQuant 技術將數據向量轉換為極座標以消除額外的歸一化開銷,再利用量化算法 QJL 消除殘差誤差。
在採用 Gemma 和 Mistral 等開源模型的測試中,該算法不僅實現了 6 倍的內存縮減,在英偉達 H100 GPU 上的性能較未量化的 32 位方案更是提升了最高 8 倍。
這一驚豔的數據在互聯網上引發熱議,人們將其戲稱為 “真實版 Pied Piper”——即 HBO 經典美劇《硅谷》中那家憑藉無損壓縮算法顛覆行業規則的虛構初創公司。Cloudflare 首席執行官 Matthew Prince 等人則將其稱為谷歌的 “DeepSeek 時刻”,認為其有望像 DeepSeek 一樣,通過極高的效率收益大幅拉低 AI 的運行成本。
華爾街無懼衝擊,高呼 “抄底”
面對科技圈的狂熱與二級市場的拋售,華爾街投行表現出顯著的冷靜,並認為市場反應過度。
Lynx Equity Strategies 分析師 KC Rajkumar 對該技術的 “顛覆性” 提出質疑。他在給客户的報告中指出,媒體對該技術的報道存在誇大成分。
他表示,當前的推理模型早已廣泛採用 4 比特量化數據,谷歌所謂的 8 倍性能提升是建立在與老舊的 32 位模型對比之上的。他強調,這些先進的壓縮技術僅僅是為了緩解算力瓶頸,並不會破壞未來三到五年內因供應受限而依然堅挺的內存與閃存需求。為此,他維持對美光科技 700 美元的目標價及買入評級,並明確表示建議 “在因谷歌消息引發的回調中買入”。
Wells Fargo 分析師 Andrew Rocha 同樣指出,儘管 TurboQuant 直擊 AI 系統的內存成本曲線,但歷史經驗表明,壓縮算法的存在從未從根本上改變硬件採購的整體規模,目前 AI 內存的需求基本面依然強勁。
傑文斯悖論再現,長期需求或受提振
除了指出市場反應過度外,機構還從更長遠的經濟學視角重新評估了 TurboQuant 的影響。
摩根士丹利在分析中指出,TurboQuant 僅作用於推理階段的鍵值緩存,完全不影響模型訓練任務,也不影響模型權重所佔用的高帶寬內存(HBM)。該技術的核心意義在於提升單 GPU 的吞吐量,使相同硬件能支持更長的上下文或更大的批處理規模。
摩根士丹利進一步援引了 “傑文斯悖論”(Jevons Paradox)來闡釋這一現象:技術效率的提升往往會降低使用成本,從而激發出更龐大的總需求。通過大幅降低單次查詢的服務成本,TurboQuant 能夠讓原本只能在雲端昂貴集羣上運行的模型遷移至本地,有效降低 AI 規模化部署的門檻。
這意味着,效率提升將激活更多原本受制於成本而無法落地的 AI 應用場景。投行總結稱,該技術重塑了 AI 部署的成本曲線,對算力與內存硬件的長期影響不僅不是利空,反而呈現出 “中性偏正面” 的積極信號。
