
Track Hyper | Intel AI chip powerhouse Lunar Lake debuts

全新架構帶來激增的 AI 性能。
作者:周源/華爾街見聞
英特爾下一代面向 AI PC 的專用移動 AI 芯片架構——Lunar Lake,終於露出全部真容。
6 月 4 日,英特爾 CEO 帕特·基辛格(Pat Gelsinger)在 COMPUTEX 2024 上正式公佈 Lunar Lake 架構的所有技術細節:CPU、GPU、NPU 性能提升,能耗降低,綜合 AI 算力達 120TOPS,原先劇透消息稱這個數值超過 100TOPS。
與首代酷睿 Ultra Meteor Lake 改變 CPU 結構相比,完全為 AI PC 而設計的 Lunar Lake,採用了全新的架構設計:如 P-Core(性能核)的 Lion Cove 架構,E-Core(能效核)的 Skymont 架構,性能堪比獨顯架構 Xe2 核顯,NPU 數量從兩顆增加到四顆,首次採用封裝級內存(將 LPDDR5x 內存與計算模塊封裝在一起)。
還有,業界轟傳英特爾採用了台積電代工:用 N3B 工藝代工計算模塊(Compute Tile),台積電N6 負責平台控制模塊(Platform Controller Tile)代工。
鉅變:P/E-Core 新架構優勢
Lunar Lake 架構設計包括七個方面:模塊化結構、封裝工藝、P 性能核、E 能效核、混合架構與線程調度、GPU 核顯、NPU AI 引擎和平台連接等部分。
這個新架構的主要亮點有三個:首先這是英特爾首次完全採用台積電代工(但英特爾官方沒有加以明確)的芯片;其次,用這個新架構的全新 AI PC 芯片上集成了 LPDDR5x 內存,等於採用這款芯片的筆記本電腦無需額外配置內存,類似智能手機的 SoC(系統級芯片)結構;第三,Lunar Lake 用了英特爾 Foveros 封裝工藝。
在計算核心架構層,Lunar Lake 擁有 4 個 P-Core(性能核),4 個 E-Core(能效核),共計 8 線程,即 4P+4E/8T。
巨大的設計變化來自 P-Core 和 E-Core:前者採用全新 Lion Cove 架構,後者則使用 Skymont 架構。這取代了原先 Meteor Lake 架構的 Cresmont(節能高能效核),而在 Core(酷睿)Ultra 上出現的 LP E-Core(低功耗能效核)設計也被放棄。
其中,E 核運行速度與 LP-E 核心一樣,功耗卻僅 LP-E 內核的 30%,在性能上可提升 2 倍或 4 倍(單/多線程)。
更重要的變化是:E-Core 內部不像 P-Core 那樣用 Ring 總線連接,而是讓其具備 LP E-Core 的特性,並配合台積電N3B 製程效率和新架構設計下每週期指令數(IPC:Instructions Per Cycle)提升,從而獲得顯著的增益效果。
Lion Cove 的作用,在技術上,完成了在 CPU 設計中投入更多的緩存,以此解決 CPU 性能問題。隨着 CPU 系統設計愈發複雜,緩存子系統有必要跟進增加,以此保證性能與執行效率的全面提升。
另外,Lion Cove 架構還有個重大的設計變革,英特爾甚至認為這種變革會對未來的芯片設計產生深遠影響:英特爾將設計重心放在了創建更大規模的分區(Partition),改變了以往的小分區(Small Partition)設計。
這種設計的好處是能降低芯片整體的設計成本和複雜度,而未來的設計迭代升級也會變得更容易。
P-Core 採用新的 Lion Cove 架構,還有能耗控制方面的好處:P-Core 的 IPC(每個時鐘週期指令數:Instructions Per Cycle)提升幅度達 30%,動態電源效率提升了 20%。
Lunar Lake 的 E-Core 採用的 Skymont 架構有什麼好處呢?
英特爾稱,用 Skymont 架構的 E-Core 能與上代 P-Core 性能持平(E-Core 作為能效核,性能遠不如 P-Core 性能核);不僅如此,在部分工作場景下,性能甚至能超越之。
這如何實現?
Skymont 架構使用了全新設計,包括在一個時鐘週期內同時解碼並執行 9 條指令,也就是 9 寬解碼,比上代 E-Core 的 Crestmont 架構增加 50%。一般來説,解碼階段寬度越大,處理器性能越強,能更有效地利用資源,加快指令執行速度。
使用這套架構的 E-Core,功耗效率提升明顯;在單線程性能提升 1.7 倍的同時,功耗僅為 Meteor Lake LP E-Core 的 30%;用 Skymont E-Core 集羣與 Meteor Lake 的 LP E-Core 同時比較,功耗相同,多線程性能提升 2.9 倍。
首次採用封裝級內存
Lunar Lake 有個令人驚歎的技術 “創新”:這是英特爾首次採用在處理器內部封裝整合內存的做法,英特爾將之稱為 “Memory on Package”(封裝級內存)。
換句話説,搭載 Lunar Lake 處理器的筆記本不支持獨立的 SO-DIMM 標準的內存(LPDDR5x),故而在後期不能擴展內存以升級性能。
若無法擴展內存,豈不是和眼下的超薄筆記本(內存被集成在 PCB 主板上)一樣?
Lunar Lake 的物理結構主要分三部分:計算模塊和平台控制器模塊,這兩部分沿用了 Meteor Lake 的分離式模塊化設計方式,組成了 Lunar Lake 的計算性能核;為了加固計算核心結構,英特爾還加一個沒有電路和性能功能的填料模塊(Filler Tile)。
計算模塊(整合了最新的 Xe2 GPU、第四代 NPU、IPU)、平台控制器模塊,加上那個沒有實際作用的填料模塊,通過英特爾的 Foveros 封裝工藝,將之封裝在基礎模塊(Base tile)上,變成一個整體。
相比前代,Xe2 GPU 的遊戲和圖形性能提升 1.5 倍,AI 吞吐量提升超 3.5 倍,算力高達 67 TOPS。
內部通信方面,計算模塊通過 Home Agent、Coherency Agent 等連接主要單元,平台控制器模塊則通過 IO Coherency 連接,以確保內部的一致性,最終實現高效通信。
Lunar Lake 的技術亮點,或稱為重大的設計變化,在於之上封裝了兩顆內存。在 CPU 平面圖的上半部分,封裝了兩顆 64bit 32GB LPDDR5X(SO-DIMM 標準)內存:最高頻率 8500MHz,每顆芯片有四個 16-bit 通道,總容量最高為 32GB。

英特爾稱這種設計能節省 40%的功耗和釋放多達 250 平方毫米的主板面積,故而能顯著提升電池續航,從而留出更多空間給筆記本的其他設計。
作為一款面向 AI PC 的 AI 芯片架構,Lunar Lake 用全新的 NPU 4 和 Arc Xe2-LPG 核顯提供 AI 動力。NPU 4 在 INT 8 上的算力達 48TOPS,大幅超過微軟 Copilot+ AI PC 算力標準(40TOPS),從而滿足未來的 AI PC 性能需求。
其中,對比此前的 Meteor Lake 的 NPU 區區 11.5TOPS 算力,Lunar Lake 的 NPU 增加了兩倍數量,內存帶寬增加 1 倍,時鐘速度從 1.4GHz 提高到 1.95GHz,故而達成 48 TOPS 和約 2-4 倍的整體性能。
Lunar Lake 的 NPU 4,疊加 Arc Xe2-LPG 核顯後,其綜合算力高達 120TOPS,但缺點是全負荷運行耗電量會相應增多。
這個問題怎麼解決?英特爾有辦法。
英特爾通過與微軟合作,將英特爾硬件線程調度器(ITD:Intel Thread Director)做了增強,旨在與微軟 Windows Copilot 以及其他 AI 助手做針對性優化。
英特爾表示,有了新的線程導向器,Windows 現在能創建 containment zones,將大多數實際工作負載讓 Skymont E 核承擔,解決綜合算力高企帶來的耗電量增加問題,以保證用户的高效續航體驗。
Lunar Lake 的架構師設計創新點確實不少,比如英特爾還取消了超線程技術。在常見的筆記本電腦時鐘速度下,Lunar Lake 的 E 核性能竟然比 Meteor Lake 的 P 核更強,單線程性能提升高達 20%,四個 Lion Cove P 核還實現了 IPC 高達 14% 的性能提升。
據英特爾的預定計劃,Lunar Lake 將於今年三季度上市。
