The Next Fifteen Years: The Future of Cloud and AI Integration

金融界
2024.09.23 16:09

阿里雲在雲與 AI 融合的新階段中,致力於滿足 AI 時代的超大規模算力需求。通過研發大規模集羣架構 HPN7.0,阿里雲實現了模型端到端訓練性能提升 10% 以上,支持萬卡集羣式計算。阿里雲的前瞻性佈局使其在 AI 基礎設施方面保持領先,吸引了眾多企業客户,推動智能駕駛和具身智能機器人等創新領域的發展。

雲將是 AI 的後盾與燃料庫。

從 2009 年阿里雲寫下飛天第一行代碼,迄今已過去十五年,經歷了互聯網企業騰飛和傳統企業深入數字化轉型的兩次雲計算浪潮之後,眼下我們已經進入第三次浪潮:雲與 AI 融合的新階段。如同潮湧,AI 的出現並不是顛覆前兩次的產業邏輯,而是前期在雲上的技術積累會在 AI 基礎設施階段加速釋放平台價值。

下一個十五年,不難預期:雲將是 AI 的後盾與燃料庫。

這一點在網絡的發展歷程中也有跡可循。2000 年前後,國內互聯網剛興起不久,是由運營商提供網絡基礎設施,人們的需求只是發發郵件、買買東西;當雲計算與大數據到來,網絡進入 SDN 時代,支撐網絡遊戲、直播、算法推薦的興起;現在我們正經歷 AI 智算時代,智能駕駛、LLM 訓練推理等,對網絡的要求與過去更是截然不同。

如何能夠匹配 AI 時代下超大規模算力需求,讓性能極致發揮?阿里雲已經有了答案。

為匹配 AI 時代的網絡要求,阿里雲去年研發出大規模集羣架構 HPN7.0,支持萬卡集羣式計算。據今年雲棲大會最新公佈,HPN7.0 讓模型端到端訓練性能提升 10% 以上,目前它實行前後端網絡分離技術,前端 400G 網絡帶寬提供高速存儲訪問和節點通信;後端 3.2T GPU 互聯網絡,可滿足大規模 AI 計算需求。

實際上,阿里雲早在 2021 年就在研究第一代萬卡集羣 HPN6.0,當時主要滿足自動駕駛客户對視覺模型訓練的需求,彼時大模型還沒有如此普及。此外,阿里雲 2022 年 10 月在業內最早提出 MaaS 模型即服務理念,並引領了理念潮流。這些均表明,阿里雲在 AI 底層和中間層 AI infrastructure(簡稱 “AI Infra”)方面一直保持着前瞻性思考與佈局。

在雲與 AI 密不可分的時代,超前佈局讓阿里雲快速贏得了大量新的企業客户,像智能駕駛、具身智能機器人等與雲廠商有共創能力的創新者。AI Infra 競爭也將掀起新一輪行業變革。

加法與減法的對碰

智能的遷躍在新能源汽車上表現尤為明顯,其對智能基礎設施的需求也更強烈。

在 9 月 19 日杭州雲棲大會上,駕駛號稱 “全球首款 AI 汽車” P7+ 參會的小鵬汽車董事長何小鵬預測,端到端大模型對自動駕駛領域的價值在於,未來可以讓每一個人在每一個城市都像老司機那樣開車。

在常規理念中,代碼富集意味着功能強大,但通過端到端(End-to-End)的神經網絡代碼建立了感知—決策—執行一體化,把這三步驟集合在同一個大模型中去做,徹底改變了過去的串聯式架構。實際效果是:端到端 “繞開” 了地圖數據,可根據攝像頭、傳感器實時採集的圖像數據,直接生成車輛的加速、轉向、剎車信號,讓汽車反應更順滑。

在此背景下,代碼將進一步縮減。以特斯拉 FSD v12.5.1 版本為例,原本 30 多萬行的 C++ 代碼砍到只剩下 3000 行。但與此同時,馬斯克從英偉達手裏又團購了 35 萬張顯卡,以支持更快的數據處理。算力做加法,這也是讓前端能逐漸變得更加簡潔的基礎前提。

過去兩年,小鵬汽車也一直在加碼算力,其與阿里雲共建的智算中心的算力儲備擴張超 4 倍至 2.51Eflops,以前需要一週完成的自動駕駛大模型訓練,如今通過智算中心可以縮短到用一小時完成。為加速端到端大模型、提升自動駕駛的上限,何小鵬表示將繼續深化與阿里雲的 AI 算力合作,預計每年投入 35 億元用於研發,其中 7 億元劃撥給算力訓練,並加速端到端大模型的落地。

小鵬汽車從 2015 年在阿里雲開户,2019 年車聯網研發上雲,到 2022 年與阿里雲在烏蘭察布建成自動駕駛智算中心,再到自主研發的 “全域大語言模型” X-GPT 與阿里雲通義千問的融合,全面智能化升級車載助理;此外,小鵬汽車還積極擁抱阿里雲通義萬相,並在研發領域引入通義靈碼,實現代碼評審效率的大幅提升……這家車企現已 All in AI,在製造、車聯網、自動駕駛、智能座艙、官網數字營銷多個領域與阿里雲資源深度綁定。

另一家車企吉利也在智駕的路上飛奔,其與阿里雲已合作 9 年之久,通過採用混合雲架構,線下專有云部署 1000 台服務器 +20P 存儲、線上 7 萬核公共雲 ECS+28P 存儲。在智能駕駛場景,吉利使用了飛天專有云、標杆算力平台 PAI 靈駿 +OSS+ 大數據 + 數據庫;智能座艙則通過阿里雲的 EGS+DeepGPU 加速引擎,將吉利自研大模型推理上雲,加速效果提升 40%,並調用通義大模型 API 接口。同時它藉助通義萬相 VL 功能,支持智能座艙艙外識物,利用通義千問 Plus,支持客户情感閒聊。

據行業內測算,傳統燃油車有大約 3 萬個零部件、整車芯片大約有 500 顆;而新能源 AI 汽車的零件只有不到 2 萬個,芯片量卻達 5500 顆左右。一加一減之間,汽車的交互方式與生產邏輯已被改變,對專有芯片、大規模算力集羣和雲原生數據庫的依賴進一步增強。

據最新消息,英偉達廣泛覆蓋汽車領域的 NVIDIA DRIVE Orin 系統級芯片,已實現與阿里雲通義千問多模態大模型 Qwen2-VL 的深度適配,並應用於斑馬智行的智能座艙場景中。大模型接入汽車座艙,拓展人機交互邊界,已成趨勢。

“萬卡時代” 的全棧創新

大模型雖火,但並不算成熟。市面上的大模型幾乎每天都會因各種錯誤造成訓練中斷,而訓練時效對業務創新具有決定性意義,訓練太慢、總是中斷,創新效率就難以提升。人們往往添加更多的 GPU 來增強訓練時效。像 Meta 訓練 Llama 模型時用的是 1.6 萬卡算力集羣,大概每隔兩三個小時整個訓練任務就要重新開始,回到上一個 Checkpoint。

從 128 張卡到 1024 張卡,從千卡到萬卡,再到十萬卡,“萬卡堆疊” 在理論上看似簡單,單個 GPU 算力乘以 GPU 規模即構成整體算力。然而在實際運行中,當卡的規模急劇擴大時,很難再保證這種理論上的線性比,會產生算力 “衰減”,這些都是運營難點。

這時候,網絡在這個集羣中發揮着重要的作用,因為網絡在 “梯度同步” 過程中需要時間,且需大量數據交換,這個時間長短直接決定了 GPU 在計算過程中的等待時間,導致傳統網絡集羣不再適用於 AI 計算。

對此,上面提到的阿里雲 HPN7.0 高性能網絡架構提出了一個創新性設計,它採用單層千卡、兩層萬卡、存算分離的架構,專門為 AI 計算所設計,支持十萬卡集羣。兩層網絡不僅減少了時延,還簡化了網絡連接的數量和拓撲,從而找到了最優解。

阿里雲過往長期積累的規模優勢也正支撐着新一輪技術優勢——此次雲棲大會上最新發布的 Qwen2.5–72B 性能超越 Llama 3.1 405B,同時模型算力成本再次下降,通義千問三款主力模型最高降幅 85%。AI 基礎設施必然會更強大,不僅要走得好,也要走得起,由此才能推動更多創新,在這一方向上阿里雲也在加速。

在阿里雲 CTO 周靖人看來,AI 技術變革觸達了計算機體系的方方面面,需要對全棧進行全方位的創新。不僅是網絡,還包括服務器、存儲、數據處理、模型訓練和推理平台的技術架構體系,都需要圍繞 AI 做全面升級,“阿里雲正在圍繞 AI 時代,樹立一個 AI 基礎設施的新標準。”

阿里巴巴集團 CEO、阿里雲智能集團董事長兼 CEO 吳泳銘在雲棲大會上分享,過去一年阿里雲投資新建了大量的 AI 算力,但還是遠遠不能滿足客户的旺盛需求。這更堅定了阿里雲未來的投資力度。

具體看,在服務器端,阿里雲最新上線的磐久 AI 服務器支持單機 16 卡 GPU、共享顯存 1.5TB,並提供基於 AI 算法的 GPU 故障預測,準確率達 92%。AI 時代將從 CPU 核心過渡到以 GPU 為主的計算實例,需要支持全球各地的異構芯片,面對比 CPU 時代更多的架構創新,磐久服務器就是專為 AI 深度優化,在芯片的快速適配、散熱上做了優化處理。

在存儲上,阿里雲 CPFS 文件存儲在經歷過去一年發展已變成一項全託管服務,免去客户運維工作。它目前擴容到了每秒高達 20TB 的帶寬,在設計上採用了存儲的梯度架構,可把熱度最高的數據放在延遲最低的存儲上。其中 CPFS 與統一存儲數據湖 OSS 之間的數據傳輸速度達到每秒 100GB。這些設計都是為 AI 智算設計。

以上包括磐久 AI 服務器、HPN 網絡、CPFS 存儲,再加上容器服務 ACS,一起構成了阿里雲 AI 算力平台靈駿,在 AI Infra 層面打造出一個更適合 GPU 計算和 AI 模型訓練的基礎設施。阿里雲與復旦大學共建的雲上智算平台 CFFF、與小鵬汽車在烏蘭察布共建的自動駕駛智算中心,都屬於靈駿的產業端應用。

目前,以 AI 開發和應用落地的全棧能力可以通過 PAI 和阿里雲百鍊這兩個平台對外落地。在雲棲大會上,兩者均有新的服務升級發佈:PAI 模型訓練全面提升了穩定性,千卡規模集羣故障分鐘級自動發現,覆蓋故障達 98.6%;百鍊 2.0 專屬版本在雲棲大會上發佈,專門針對政企客户做了使用優化。

正是由於以上種種創新使得通用大模型及基礎算力迎來多輪降價,降低了企業 AI 開發成本,對於各行業 AI 滲透率的提升至關重要。

回顧早期雲計算,因託管層級的不同被分為 IaaS、PaaS、SaaS 層。現在這個架構因 AI 向上延伸至 MaaS 開源,向下延伸到芯片層、異構算力。AI 不僅拓展了雲的邊界,也激勵雲再做一次物理級別的全棧升級變革。如今,真正到了檢驗雲廠商創新能力的時候。

下一個十五年, “AI+ 雲” 的基礎設施之上,新的浪潮奔湧而來。

中國雲計算風雨十五載,我們以雲計算三次浪潮為主線,以三篇稿件系統覆盤並思考產業與雲計算交融的過去、當下與未來。