Track Hyper | Snapdragon 8 Gen 2: Qualcomm's most powerful performance platform in history

華爾街見聞
2024.11.10 01:47
portai
I'm PortAI, I can summarize articles.

業界 AI 手機的驚人應用,技術源出於此。

作者:周源/華爾街見聞

高通新一代驍龍旗艦移動平台,整體性能直逼 PC 級,重新定義了什麼叫 “性能”。

移動級消費芯片性能直追 PC 級芯片,這是從所未有的事。

10 月 22 日,高通發佈的驍龍 8 至尊版,成為高通成立以來性能最強悍的旗艦移動平台,其技術釋放直如泉水 “噴湧”,激射而出,故能傲視業界,難覓對手。

本代驍龍 8 旗艦,並沒有順延從 2021 年以來驍龍 8Gen X 的命名規則,轉而改稱驍龍 8 至尊版,英文名 “Snapdragon 8 Elite”,這是為什麼呢?

因為驍龍 8 至尊版採用和驍龍 X Elite 相同的 CPU 架構——高通自研 Oryon CPU 架構,放棄了此前在移動芯片組中使用的 Kryo CPU 架構。

這個超級計算平台(不僅僅是一顆 SoC 芯片),CPU 採用高通曆史上從未有過的全大核設計;綜合性能、能效表現和 AI 能力,在驍龍 8Gen 2(降低功耗)和驍龍 8Gen 3(提升 AI 性能)的基礎上,達到了一個全新高度。

綜合而言,驍龍 8 至尊版的技術重點瞄準突破智能手機的端側 AI 體驗。

安卓陣營今年推出的令人驚歎的 AI 體驗,比如榮耀在 10 月 30 日推出 “一句話的事兒” 的端側 AI 智能體,能解構並自動達成用户模糊意圖所指的實際需求,就來自驍龍 8 至尊版的底層技術能力;小米 15 Pro 推出的無網通信功能,也在驍龍 8 至尊版的 NB-NTN(非地面網絡)衞星通信技術看到了影子。

全大核結構統治芯片設計

評價任何芯片的性能優劣,有三個維度,統稱 PPA。

也就是,Power(能耗)、Performance(性能)和 Area(面積)。其中,能耗排第一,其次是性能,排第三的面積,主要考量與成本相關。

這個優良特性也被驍龍 8 至尊版繼承:基於 GeekBench 的測試結果,驍龍 8 至尊版的 CPU 的單/多核性能均提升 45%,綜合能效提升 44%,整體節能提升 27%;GPU 性能和能效提升均為 45%,參照對比第三代驍龍 8(即驍龍 8Gen 3)標準。

與驍龍 8Gen3 和驍龍 8Gen 2 相比,驍龍 8 至尊版同樣採用台積電工藝。與前兩代有所不同的是,本代旗艦平台採用台積電 3nm 工藝製程(第二代 N3E),這個技術規格與蘋果 A18 系列、聯發科天璣 9400 相同。

本代移動旗艦平台,並非簡單的 SoC 芯片集成,之所以稱之為算力平台,是因為高通將超過 40 個不同組件全部封裝在一起。

除了 CPU、NPU、還包括射頻、收發器、電源管理、超聲波指紋識別和移動連接芯片等等,具有全方位的移動、AI 推理、綜合應用(比如影像、遊戲、屏幕解鎖等)和通信連接能力。

高通將之命名為驍龍 8 至尊版,即 “Elite”,與 2023 年推出的筆電芯片驍龍 X Elite 相似,原因就是高通首次將驍龍 X Elite 的 Oryon CPU 架構引入移動平台,代際為第二代。

Oryon CPU 架構主要針對日益增長的 AI 性能需求而設計。

因此,驍龍 8 至尊版是高通在首顆專為端側生成式 AI 打造的移動 AI 芯片——驍龍 8Gen 3 的基礎上進行了又一次技術大迭代版,是一個實打實的 AI 移動芯片集成平台。

與高通曆史上所有 SoC 旗艦移動芯片最大的不同,除了這是一個集成多達 40+ 個不同功能芯片的移動平台,還有其 CPU 結構第一次採用了全大核設計,CPU 架構也從 Kryo 變成 Oryon。

基於第二代自研 Oryon CPU 架構,驍龍 8 至尊版配置了兩個超級核心(Prime),主頻高達 4.32GHz;與之搭配的是六個 “性能核心”(Performance Core),主頻達到驚人的 3.53GHz,這與聯發科天璣 9400 的超超大核 3.62GHz 的主頻非常接近。

換句話説,天璣 9400 的超超大核,就主頻參數而言,僅相當於驍龍 8 至尊版性能核心主頻的水平。

驍龍 8 至尊版的兩個超級核心的主頻,已經不遜色於 PC 級 CPU 的主頻表現,故而性能強悍。高通甚至不無驕傲的公開表示,採用第二代 Oryon CPU 架構的核心,比英特爾寄予厚望的 Lunar Lake PC 處理器更強大。

“第二代 Oryon CPU 與友商(指英特爾)推出的最好的 PC 產品(即 Lunar Lake)相比表現如何?” 高通首席執行官 Cristiano Amon 表示,“與競品相比,我們的 CPU 性能提升了 62%,這比英特爾剛剛發佈的產品要快得多,同時能效提高了 190%。”

從 CPU 結構看,驍龍 8 至尊版採用了 2 個超級內核和 6 個性能內核,小核消失。這麼説的話,驍龍 8Gen 3 是高通最後一次採用三叢集 CPU 架構的移動平台。

至此,Arm 於 2011 年推出的 big.LITTLE 架構正式退出驍龍旗艦移動平台的歷史舞台,全大核時代正式宣告來臨,芯片 CPU 設計思路從此為全大核結構統治。

CPU 和 NPU 分別有哪些提升?

雖然驍龍 8 至尊版也採用了和驍龍 X Elite 相類似的 Oryon CPU 架構,但前者用的 Oryon 已是第二代,那麼差別在哪裏?

高通專為移動平台做了特別改進,除 CPU 配置不同,另外的優化主要是提升緩存。

每個超級內核(Prime)和每個性能內核(Performance Core)的 L1 級緩存分別提升至 192KB 和 128KB,總計 1152KB,超過 1MB(1024KB);同時提升 L2 級緩存至 24MB,2 個超大核獨享 12MB,6 個性能核分享 12MB。

據高通介紹,這是一個全新的微架構,具有 “即時喚醒”(Instant wake)功能,能減少各個 CPU 核心的頻繁電源循環。

以前,高通採用的 Kryo CPU 架構使用的 “上電序列”(Power-Up Sequence)涉及重置代碼,以便核心做好運行準備。但現在,高通以 “即時喚醒” 技術,允許核心立即執行下一條指令,消除了上電序列帶來的延遲,從而進一步提升運行效率。

同時,驍龍 8 至尊版支持的 LP-DDR5X 的速率為 10.7Gbps(帶寬),主頻也達到了 5.33GHz,比前驍龍 8Gen 3 的 4.8GHz 和驍龍 8Gen 2 的 4.2GHz 分別有 11.04% 和 26.90% 的提升。

高通表示,採用第二代高通 Oryon CPU 的微架構和新的內存技術,最終將帶來驍龍 8 至尊版出色的用户體驗,包括更快的應用啓動速度、無縫的多任務處理和先進的生成式 AI 功能。

對了,與驍龍 8 至尊版帶來的全新 CPU 架構和新的內存系統相比,AI 才是這個移動平台更引人關注的焦點。

既然説到 AI 性能,那麼高通始自驍龍 8Gen 2 採用的 AI 計算專用芯片 “Hexagon NPU” 就繞不過去,這是高通 AI 引擎的核心所在。

本代移動旗艦平台,對 Hexagon NPU 做了哪些提升?

首先,增加了標量(Scalar)和向量(Vector)加速器數量:標量加速器有 8 個核心,向量加速器有 6 個核心;其次,數據吞吐能力全線增強;第三,有個類似超大核的張量(Tensor)加速器,總體上提升了 45% 的 NPU 性能和能效,基礎大語言模型上的 token 生成速率翻倍。

若做作用或任務拆分,張量(Tensor)加速器主要負責 LVM(Logical Volume Manager)邏輯卷 AI 模型加速(主要作用於存儲器資源效率管理);標量(Scalar)加速器負責大語言模型(LLM)AI 模型加速,向量(Vector)加速器支持長文本(Long Conetext support),三者共同提升了整體運算能力,同時支持超長文本和 LLM 加速。

目前業界流行的部分大語言模型應用的響應速度,驍龍 8 至尊版處理速度超過 70 tokens/s,而驍龍 8Gen 3 的這個速度是每秒 20 tokens(70 億參數 LLM)。

本代移動平台的 AI 能力,基於大幅升級的 Hexagon NPU,能支持在端側構建個性化多模態 AI 智能體。這對提升用户體驗尤為關鍵。

驍龍 8 至尊版能在底層對包括自動語音識別(ASR)、大語言模型(LLM)、大視覺模型(LVM)和全新多模態大模型(LMM)等在內的多模態模型提供支持。通過異構計算,這些 AI 模型能在高通 AI 引擎的不同內核上運行。

這些技術能力,能為智能手機用户帶來前所未見的全新體驗。

比如,智能手機的傳感器和攝像頭,能根據用户的日常喜好,在端側本地創建屬於個人的神經網絡(NPU),AI 個人智能體因之就能更有效理解用户需求,相當於一個像真人那樣的助理。

AI 個人智能體和影像消除

在體驗層面,靠着 Hexagon NPU 模塊,智能手機能看懂屏幕所顯示的畫面,甚至能理解用户的複雜意圖,並擁有即時給出解決方案的技術能力。

比如,用户將手機攝像頭直接對準想要了解的事物,再向手機提問,手機能調用攝像頭的實時畫面,對之做出解構分析並給出答案。

還有一些更復雜的應用,比如用户對着手機用語音説一句話,智能手機有能力做用户模糊意圖的任務解構,全程自動完成用户意圖的需求滿足。這就相當於給用户提供了一個高度 “類人化”(像真人一樣)的 AI 個人助理,這是像科幻場景那樣的全新體驗。

這種體驗,在剛剛於 10 月 31 日榮耀發佈的搭載內置了榮耀 AI 個人智能體 YOYO 的 MagicOS 9.0 的新一代旗艦 Magic 7 系列上,已經落地。Magic 7 系列搭載了驍龍 8 至尊版。

榮耀號稱搭載 MagicOS 9.0 的智能手機,用户只需説 “一句話”,就能搞定諸如點餐飲、取消隱藏的訂閲費用等複雜需求,大為拓展了 AI 手機的高度智慧體驗,比 OPPO 喜歡的用 AI 技術修圖、小米喜歡的 AI 攝影,無疑向前邁出了巨大的一步。

這種智能終端的 AI 新體驗,實際上是以驍龍 8 至尊版的 Hexagon NPU 強悍底層 AI 技術為基礎。

驍龍 8 至尊版能實現用户複雜意圖理解這種相對更高難度的 AI 體驗,相對來説,簡單的消除靜態照片多餘路人這種事,就是小菜了。

但是,高通作為技術豪門,不會止步於此。這次,驍龍 8 至尊版的 AI 能力,還被擴展到了視頻領域。

高通為其 AI 引擎 Hexagon NPU 配備了一個協同硬件模塊:AI ISP(圖像信號處理器:Image Signal Processor)。

AI ISP 的主要功能是提升計算攝影表現力,比如將更多的處理管道(Processing Pipeline)放在 RAW 域中運行。

這意味着當 AI ISP 在做自動對焦、自動校正白平衡和自動曝光等拍攝動作時,支持 AI 輔助增強功能,最終能實現更棒的影像表現力,比如更好的畫質(更高的清晰度或亮度、更好的色彩平衡)、更高幀率的視頻等。

此外,高通用兩顆 Micro NPU,再加上兩顆 AI ISP、一顆 DSP(數字信號處理器:Digital Signal Processor)和一個內存,共同組建了高通傳感器中樞(Sensing Hub),整體 AI 性能提升 60%,AI 推理速度提升 45%。

從參數上看,AI ISP 的像素吞吐量提升 33%,每秒達 43 億像素;同時,這個 ISP 還能支持最多三個最高各 4800 萬像素的攝像頭和以 30FPS 錄製零延遲快門的視頻。

所謂的新增 AI 輔助增強功能體現在哪裏?很簡單,就是能做到在 4K 分辨率下實現 60fps 實時的視頻拍攝質量。

那麼,Hexagon NPU 和 AI ISP 如何協同?作用是什麼?

高通以 Hexagon Direct Link 技術實現兩者的協同,Hexagon NPU 能直接訪問 ISP 傳感器的原生原始數據,利用 NPU 的技術能力輔助 ISP 做更快的圖像分割(Insight AI),進一步理解影像中的各個元素,實現更快的 “虛化” 或 “物件消除”。

對,這就是像從 OPPO Find X7 系列開始推出的 AI 照片消除功能。

這次,在驍龍 8 至尊版上,還實現了視頻一鍵消除:只需在 30FPS 視頻中選擇想要擦除的對象,就能實現消除。

基於 Hexagon NPU 的強悍性能,以及與 AI ISP 的高度協同,整個處理過程被置於端側,而無需上雲,故無延遲,體驗一流。

GPU 的切片架構和無網通信

歷代驍龍移動平台的升級重點,除了 CPU、NPU 和 ISP 之外,還包括 GPU 和 Modem。

其中,GPU 是驍龍旗艦移動平台的傳統強項模塊,因之業界號稱驍龍移動平台是買 GPU 送 CPU。

也許是技術品類太多,高通這次還是沒有為驍龍 8 至尊版的新一代 Adreno GPU 取一個響亮的營銷名稱。

驍龍 8 至尊版的全新 Adreno GPU 首次採用切片(slice)架構——將着色器核心和其他固定功能塊分成不同的切片:共分三組,每組頻率都是 1.1GHz(上代為 900MHz),三組接受指令處理器(Cammand Processor)的統一調度。

當渲染複雜場景時,可以直接在 GPU 上存儲 12MB 數據(圖形緩存),減少向驍龍 8 至尊版內存發送額外圖形數據(RAM),延遲相應也更低,故應用運行更流暢、電池壽命更長、圖形更清晰,3D 環境也更逼真。

這種設計思路與英偉達的 GPC/TPC/SM 分層結構、AMD 的 CU 計算單元,英特爾的渲染切片(Render Slice:Xe-GPU 架構的核心組件)類似。

其中,英特爾的 Render Slice,包含 4 個 Xe-Core 和 1 個光線追蹤單元,以及其他一些 IP,如幾何管線、光柵化管線、採樣器和像素後端等,構成英特爾 Arc GPU 的基礎。

通過這種設計,驍龍 8 至尊版允許使用更動態的資源分配、更高的時鐘速度和更好的負載平衡,還能通過關閉切片降低功耗。

據高通給出的數據,與上代 Adreno GPU 相比,這次推出的新 GPU 性能提高 40%,能效提高 40%,光線追蹤性能提高 35%(得益於升級後的 Snapdragon Elite Gaming 技術)。

所謂光線追蹤(簡稱光追),通俗説,就是模擬各種光線效果。比如反射和折射、散射和色散等現象,為手遊帶來栩栩如生的光線、反射和照明效果,實現更接近真實環境光的精緻遊戲畫面。

為了提升遊戲體驗,驍龍 8 至尊版也像驍龍 8Gen 2 那樣,將虛幻引擎 5(Unreal Engine 5)的一項核心能力——Nanite 解決方案首次引入端側移動平台,同時將虛幻引擎 5 升級到 5.3。驍龍 8Gen 2 曾在端側引入虛幻引擎 5 的 Metahuman 框架。

Nanite 解決方案,允許開發者在遊戲和實時渲染項目中,使用高多邊形模型而對性能造成顯著影響;Metahuman 框架則致力於創建逼真的數字人類角色。

通過 Nanite 採用全新的虛擬幾何系統(Virtualized Geometry System),能使低端機器也可以運行復雜的大模型。這對於提高遊戲和實時渲染項目的可訪問性和性能至關重要。

這個系統的可貴之處在於其非常智能,能做到只處理並渲染人眼能觀察到的細節,並採用高度壓縮的數據格式,從而大大減輕渲染壓力。

華爾街見聞注意到,本代 Adreno GPU 依然僅支持 OpenGL ES 3.2 和 Vulkan 1.3,與驍龍 8Gen 2 完全一樣,作用是提升手機對大型手遊的圖形處理效率。

在通信連接方面,驍龍 8 至尊版支持 AI 增強 5G 和 Wi-Fi 連接的移動平台,集成驍龍 X80 5G 基帶及射頻系統,也就是第二代 5G AI 處理器。

驍龍 80 5G 基帶擁有多項行業第一:首次支持下行 6 載波聚合、首次支持 6 個 Rx 接收器路徑、首次支持 AI/5G-A 融合、首次支持 AI 多天線管理、首次支持 CPE AI 增強通信和首次支持 NB-NTN(非地面網絡)衞星通信。

值得一提的是,小米 15 Pro 用的就是驍龍 8 Elite,還首次搭載小米星辰通信系統,能讓手機在完全沒有網絡的情況下,實現半徑 3.5 公里內的雙向通話。這個功能,與驍龍 8 Elite 的支持 NB-NTN(非地面網絡)衞星通信技術——允許在沒有地面網絡覆蓋的地區實現通信連接,是不是很像?