Report: Google launches the strongest AI chip to challenge Nvidia's dominance with custom silicon

據報道，這款芯片可將多達 9216 顆芯片連接至單個集羣，谷歌稱其消除了” 最苛刻模型的數據瓶頸”。儘管大多數大型語言模型和 AI 工作負載依賴英偉達的圖形處理單元（GPU），但谷歌的 TPU 作為定製硅片可在價格、性能和效率方面提供優勢。AI 初創公司 Anthropic 計劃使用多達 100 萬顆新 TPU 來運行其 Claude 模型。

谷歌推出迄今最強大的定製 AI 芯片，試圖通過提供差異化的硅片解決方案從人工智能公司手中爭奪業務，直接挑戰英偉達在 AI 芯片市場的主導地位。

11 月 6 日，據媒體報道，谷歌宣佈將在未來幾周內推出第七代張量處理單元 Ironwood。該公司表示，這款芯片"專為最苛刻的工作負載量身打造"，在訓練和推理方面的性能較第六代 Trillium TPU 提升了四倍。單個超級計算機單元可通過芯片間互聯網絡連接多達 9216 顆 Ironwood TPU，並訪問 1.77 PB 的共享高帶寬內存。

AI 初創公司 Anthropic 已成為首批重要客户。谷歌上月宣佈將允許 Anthropic 使用多達 100 萬單位的定製芯片來訓練和運行其 Claude 大語言模型。Anthropic 對 Ironwood 的早期反饋"非常積極"，預計在訓練到運行 Claude 模型的過程中將看到令人印象深刻的性價比提升。

這一舉措凸顯谷歌在與微軟、亞馬遜和 Meta 的 AI 基礎設施競賽中的戰略佈局。儘管大多數大型語言模型依賴英偉達的圖形處理單元，但谷歌的 TPU 作為定製芯片可在價格、性能和效率方面提供差異化優勢。

性能躍升四倍，架構應對數據密集型需求

Ironwood 採用了先進的互聯架構以應對數據密集型 AI 模型的需求。這款完全由谷歌內部研發的芯片設計用於處理從大規模 AI 模型訓練、強化學習到低延遲大批量 AI 推理的各類任務。

谷歌表示，單個 POD（谷歌的 AI 超級計算機單元）可連接多達 9216 顆 Ironwood TPU，從而避免大型數據密集型 AI 模型的數據瓶頸，讓客户能夠"運行和擴展現存最大、最數據密集型的模型"。這種連接不僅有助於芯片間通信，還允許所有芯片訪問 1.77 PB 的共享高帶寬內存，這對大規模推理至關重要。

谷歌的光電路交換技術可幫助在服務中斷時進行路由。該公司在其搜索和 YouTube 算法中使用 TPU，併為其 Gemini AI 模型提供動力。

分析師看好 TPU 業務價值，稱已成最佳替代品

分析師認為，谷歌的 TPU 業務價值可能被嚴重低估。D.A. Davidson 的 Gil Luria 去年 9 月表示，谷歌 TPU 已縮小與英偉達的差距，成為"最佳替代品"。他認為，如果將 TPU 業務與谷歌 DeepMind AI 研究實驗室合併，價值可能高達 9000 億美元。

Melius Research 分析師 Ben Reitzes 在上月底的報告中對谷歌 TPU 表達了類似的積極看法，稱其為"目前最成熟的專用集成電路"。專用集成電路是為處理特定 AI 任務而定製的芯片。

Reitzes 表示，谷歌"能夠使用其 TPU 快速創新 Gemini"。他指出，早期開發這一產品的決策現在開始向上拐點，為博通的 AI 收入和谷歌雲增長做出貢獻。

TPU 的研發已持續十年。與英偉達的 GPU 不同，TPU 屬於定製芯片類別，專門針對 AI 工作負載優化，可在價格、性能和效率方面提供優勢。

推出 Arm 架構處理器，完善產品組合

谷歌還預覽了基於 Arm 架構的定製設計 Axion 中央處理器的新實例。該公司稱，其新推出的 N4A 虛擬機是迄今為止最具成本效益的產品。這些通用虛擬機旨在運行網絡服務器和數據庫等常見工作負載。

谷歌表示，其首款基於 Arm 的裸機實例 C4A 將很快提供預覽，該實例專門用於支持開發 Android 操作系統和汽車系統等工作負載。

谷歌表示："要在模型架構、軟件和技術不斷變化的時代中蓬勃發展，你需要將用於模型訓練和服務的專用 AI 加速器，與用於日常工作負載（包括支持這些 AI 應用的工作負載）的高效通用 CPU 相結合。"

報道指出，這一系列升級旨在使其雲服務更便宜、更快速、更靈活，以與規模更大的雲服務商亞馬遜 AWS 和微軟 Azure 競爭。在微軟、亞馬遜、Meta 等科技巨頭均大舉投入 AI 基礎設施建設的背景下，谷歌的定製芯片策略為其在這場競賽中提供了差異化優勢。