Track Hyper | Intel AI chip powerhouse Lunar Lake debuts

全新架構帶來激增的 AI 性能。

作者：周源/華爾街見聞

英特爾下一代面向 AI PC 的專用移動 AI 芯片架構——Lunar Lake，終於露出全部真容。

6 月 4 日，英特爾 CEO 帕特·基辛格（Pat Gelsinger）在 COMPUTEX 2024 上正式公佈 Lunar Lake 架構的所有技術細節：CPU、GPU、NPU 性能提升，能耗降低，綜合 AI 算力達 120TOPS，原先劇透消息稱這個數值超過 100TOPS。

與首代酷睿 Ultra Meteor Lake 改變 CPU 結構相比，完全為 AI PC 而設計的 Lunar Lake，採用了全新的架構設計：如 P-Core（性能核）的 Lion Cove 架構，E-Core（能效核）的 Skymont 架構，性能堪比獨顯架構 X^e2 核顯，NPU 數量從兩顆增加到四顆，首次採用封裝級內存（將 LPDDR5x 內存與計算模塊封裝在一起）。

還有，業界轟傳英特爾採用了台積電代工：用 N3B 工藝代工計算模塊（Compute Tile），台積電N6 負責平台控制模塊（Platform Controller Tile）代工。

鉅變：P/E-Core 新架構優勢

Lunar Lake 架構設計包括七個方面：模塊化結構、封裝工藝、P 性能核、E 能效核、混合架構與線程調度、GPU 核顯、NPU AI 引擎和平台連接等部分。

這個新架構的主要亮點有三個：首先這是英特爾首次完全採用台積電代工（但英特爾官方沒有加以明確）的芯片；其次，用這個新架構的全新 AI PC 芯片上集成了 LPDDR5x 內存，等於採用這款芯片的筆記本電腦無需額外配置內存，類似智能手機的 SoC（系統級芯片）結構；第三，Lunar Lake 用了英特爾 Foveros 封裝工藝。

在計算核心架構層，Lunar Lake 擁有 4 個 P-Core（性能核），4 個 E-Core（能效核），共計 8 線程，即 4P+4E/8T。

巨大的設計變化來自 P-Core 和 E-Core：前者採用全新 Lion Cove 架構，後者則使用 Skymont 架構。這取代了原先 Meteor Lake 架構的 Cresmont（節能高能效核），而在 Core（酷睿）Ultra 上出現的 LP E-Core（低功耗能效核）設計也被放棄。

其中，E 核運行速度與 LP-E 核心一樣，功耗卻僅 LP-E 內核的 30%，在性能上可提升 2 倍或 4 倍（單/多線程）。

更重要的變化是：E-Core 內部不像 P-Core 那樣用 Ring 總線連接，而是讓其具備 LP E-Core 的特性，並配合台積電N3B 製程效率和新架構設計下每週期指令數（IPC：Instructions Per Cycle）提升，從而獲得顯著的增益效果。

Lion Cove 的作用，在技術上，完成了在 CPU 設計中投入更多的緩存，以此解決 CPU 性能問題。隨着 CPU 系統設計愈發複雜，緩存子系統有必要跟進增加，以此保證性能與執行效率的全面提升。

另外，Lion Cove 架構還有個重大的設計變革，英特爾甚至認為這種變革會對未來的芯片設計產生深遠影響：英特爾將設計重心放在了創建更大規模的分區（Partition），改變了以往的小分區（Small Partition）設計。

這種設計的好處是能降低芯片整體的設計成本和複雜度，而未來的設計迭代升級也會變得更容易。

P-Core 採用新的 Lion Cove 架構，還有能耗控制方面的好處：P-Core 的 IPC（每個時鐘週期指令數：Instructions Per Cycle）提升幅度達 30%，動態電源效率提升了 20%。

Lunar Lake 的 E-Core 採用的 Skymont 架構有什麼好處呢？

英特爾稱，用 Skymont 架構的 E-Core 能與上代 P-Core 性能持平（E-Core 作為能效核，性能遠不如 P-Core 性能核）；不僅如此，在部分工作場景下，性能甚至能超越之。

這如何實現？

Skymont 架構使用了全新設計，包括在一個時鐘週期內同時解碼並執行 9 條指令，也就是 9 寬解碼，比上代 E-Core 的 Crestmont 架構增加 50%。一般來説，解碼階段寬度越大，處理器性能越強，能更有效地利用資源，加快指令執行速度。

使用這套架構的 E-Core，功耗效率提升明顯；在單線程性能提升 1.7 倍的同時，功耗僅為 Meteor Lake LP E-Core 的 30%；用 Skymont E-Core 集羣與 Meteor Lake 的 LP E-Core 同時比較，功耗相同，多線程性能提升 2.9 倍。

首次採用封裝級內存

Lunar Lake 有個令人驚歎的技術 “創新”：這是英特爾首次採用在處理器內部封裝整合內存的做法，英特爾將之稱為 “Memory on Package”（封裝級內存）。

換句話説，搭載 Lunar Lake 處理器的筆記本不支持獨立的 SO-DIMM 標準的內存（LPDDR5x），故而在後期不能擴展內存以升級性能。

若無法擴展內存，豈不是和眼下的超薄筆記本（內存被集成在 PCB 主板上）一樣？

Lunar Lake 的物理結構主要分三部分：計算模塊和平台控制器模塊，這兩部分沿用了 Meteor Lake 的分離式模塊化設計方式，組成了 Lunar Lake 的計算性能核；為了加固計算核心結構，英特爾還加一個沒有電路和性能功能的填料模塊（Filler Tile）。

計算模塊（整合了最新的 X^e2 GPU、第四代 NPU、IPU）、平台控制器模塊，加上那個沒有實際作用的填料模塊，通過英特爾的 Foveros 封裝工藝，將之封裝在基礎模塊（Base tile）上，變成一個整體。

相比前代，X^e2 GPU 的遊戲和圖形性能提升 1.5 倍，AI 吞吐量提升超 3.5 倍，算力高達 67 TOPS。

內部通信方面，計算模塊通過 Home Agent、Coherency Agent 等連接主要單元，平台控制器模塊則通過 IO Coherency 連接，以確保內部的一致性，最終實現高效通信。

Lunar Lake 的技術亮點，或稱為重大的設計變化，在於之上封裝了兩顆內存。在 CPU 平面圖的上半部分，封裝了兩顆 64bit 32GB LPDDR5X（SO-DIMM 標準）內存：最高頻率 8500MHz，每顆芯片有四個 16-bit 通道，總容量最高為 32GB。

英特爾稱這種設計能節省 40％的功耗和釋放多達 250 平方毫米的主板面積，故而能顯著提升電池續航，從而留出更多空間給筆記本的其他設計。

作為一款面向 AI PC 的 AI 芯片架構，Lunar Lake 用全新的 NPU 4 和 Arc X^e2-LPG 核顯提供 AI 動力。NPU 4 在 INT 8 上的算力達 48TOPS，大幅超過微軟 Copilot+ AI PC 算力標準（40TOPS），從而滿足未來的 AI PC 性能需求。

其中，對比此前的 Meteor Lake 的 NPU 區區 11.5TOPS 算力，Lunar Lake 的 NPU 增加了兩倍數量，內存帶寬增加 1 倍，時鐘速度從 1.4GHz 提高到 1.95GHz，故而達成 48 TOPS 和約 2-4 倍的整體性能。

Lunar Lake 的 NPU 4，疊加 Arc Xe2-LPG 核顯後，其綜合算力高達 120TOPS，但缺點是全負荷運行耗電量會相應增多。

這個問題怎麼解決？英特爾有辦法。

英特爾通過與微軟合作，將英特爾硬件線程調度器（ITD：Intel Thread Director）做了增強，旨在與微軟 Windows Copilot 以及其他 AI 助手做針對性優化。

英特爾表示，有了新的線程導向器，Windows 現在能創建 containment zones，將大多數實際工作負載讓 Skymont E 核承擔，解決綜合算力高企帶來的耗電量增加問題，以保證用户的高效續航體驗。

Lunar Lake 的架構師設計創新點確實不少，比如英特爾還取消了超線程技術。在常見的筆記本電腦時鐘速度下，Lunar Lake 的 E 核性能竟然比 Meteor Lake 的 P 核更強，單線程性能提升高達 20%，四個 Lion Cove P 核還實現了 IPC 高達 14% 的性能提升。

據英特爾的預定計劃，Lunar Lake 將於今年三季度上市。