JP Morgan Expert Interview: Is there "overcapacity" in AI data centers? How to deploy training and inference infrastructure?

華爾街見聞
2025.06.19 01:43
portai
I'm PortAI, I can summarize articles.

摩根大通最新專家訪談揭示,AI 基建 “產能過剩” 擔憂為時過早,算法輕量化與硬件循環利用正緩解算力焦慮,但數據中心頭頂的 “電力問題” 與 “散熱難題”,才是 AI 狂奔路上更現實的減速帶。

本文作者:龍玥

來源:硬 AI

近期,摩根大通與 Scale AI 數據科學家、Meta 前高級數據科學家 Sri Kanajan 舉行電話會議,深入探討超大規模 AI 數據中心架構趨勢。

Kanajan 認為,AI 基礎設施部署仍處於早期階段,對產能過剩的擔憂有限。算法進步正降低訓練算力消耗,基礎設施通過 “訓練轉推理” 實現高效循環利用,訓練集羣在新一代 GPU 推出後被快速重新配置為推理工作負載。不過,電力和冷卻問題仍是擴展下一代數據中心的主要瓶頸。

算法革新:算力需求從訓練向推理遷移

據摩根大通報告,近期算法突破——如混合模型(含 DeepSeek)、精度訓練及策略性強化學習——顯著降低了整體 AI 模型訓練所需的計算量。這促使行業將優化重點轉向推理環節。

Kanajan 指出,當前,業界正積極採用模型蒸餾、壓縮等技術精煉模型,力求在不大幅增加原始算力投入的前提下提升性能。

基礎設施:動態部署,擔憂產能過剩尚早

Kanajan 認為,AI 基礎設施部署仍處早期階段,特別是考慮到雲服務商對其投資的長期回報預期,當前對產能過剩的擔憂有限。

一個關鍵的動態利用策略是:當訓練週期結束且新一代 GPU 上市時,現有訓練集羣會被快速重新配置,以支持推理工作負載。這種 “訓練轉推理” 的生命週期轉換,確保了計算資源能高效適配從密集訓練到均衡推理的需求變化。

在建設模式上,訓練集羣通常部署在專為優化離線 GPU 利用率而新建的隔離設施(“綠場”);而推理集羣則傾向於通過擴建現有數據中心(“棕地”),尤其在大都市區,以支撐持續的在線 AI 服務。

能源挑戰:電力冷卻成最大瓶頸

電力和冷卻挑戰仍是擴展下一代數據中心的主要瓶頸。

在 Kanajan 看來,隨着數據中心追求更高密度和承載更密集的計算負載,電力供應和散熱問題已成為下一代數據中心規模擴展的普遍性瓶頸。

超大規模企業正積極探索創新方案,如在 I 型架構設計中採用液冷技術,甚至評估核能或替代能源以實現 7x24 小時穩定供電。同時,強大的電網互聯策略對保障數據中心不間斷運行至關重要。

Meta 引領數據中心架構創新

在數據中心設計方面,摩根大通報告重點提及了 Meta 的創新做法。與傳統超大規模廠商設計支持多租户雲的 H 型佈局不同,Meta 選擇了專門針對內部 AI 工作負載的 I 型校園式配置。

據報告,這種設計在功耗、冷卻和機架密度方面實現了改進,這些因素對支持高性能訓練集羣至關重要。

在硬件策略上,Meta 正在平衡品牌解決方案與白盒方案。網絡方面,雖然 Arista 的強大能力在當前基礎設施中仍然必不可少,但 Meta 正與 Celestica 等白盒供應商合作,長期目標是將其內部軟件與白盒硬件集成。

本文來自微信公眾號 “硬 AI”,關注更多 AI 前沿資訊請移步這裏