AI iPhone Prelude? Apple publishes paper to solve "running large models on mobile memory"

華爾街見聞
2023.12.21 06:49
portai
I'm PortAI, I can summarize articles.

這項新研究支持有限容量的設備運行內存 2 倍大小的 LLM,GPU 的推理速度可以提升數十倍。媒體稱,蘋果將生成式 AI 集成到 iOS 18 的計劃或將加快推進。

AI iPhone 要來了?

據媒體報道,近日,蘋果發佈了一篇論文,介紹了一種可以再超出可用 DRAM 容量的設備上運行 LLM(大語言模型)的方法。

通過大幅提高內存使用效率,這項新研究支持有限容量的設備運行內存 2 倍大小的 LLMGPU 的推理速度可以提升數十倍

論文稱,LLM 密集的計算量和內存要求對於 DRAM 容量來説是一大挑戰,該論文構建了一個以閃存為基礎的推理成本模型,將在兩個關鍵領域進行優化:減少從閃存中傳輸的數據量、更多更流暢地讀取數據塊。

這意味着,該項突破性研究擴大了 LLM 適用性和可及性,蘋果將生成式 AI 集成到 iOS 18 的計劃或將加快推進

LLM 能在手機上運行了?

一般來説,DRAM 就是我們常説的 “內存”,而 flash(閃存)指的是硬盤。

運算數據時,CPU 通常會以 DRAM 為 “中間橋樑”,把硬盤中的數據複製到內存中來,再在內存中做數據處理,這樣速度可以提升至數百萬倍。

但在容量上,DRAM 相較於硬盤要小一個數量級。而 LLM 運行時,需要同時處理的數據量龐大,對容量有限的設備來説構成了極大的挑戰。

但這篇論文提出的新框架似乎發現了突破點。該框架旨在將模型參數存儲在閃存中,在需要的時候再將數據調入 DRAM,解決了 LLM 運行時數據處理量超過 DRAM 可用容量的的難題。

具體而言,蘋果主要運用了兩種技術:

(1)“窗口化” 技術:重複使用此前激活過的神經元,以此減少數據傳輸;

(2)“行列捆綁” 技術:針對閃存的數據特徵,定製訪問數據塊的順序,從而增加從閃存讀取的數據塊大小。

論文提及,一個 70 億參數的模型就需要超過 14GB 的內存來加載半精度浮點格式的參數,超過了大多數網絡端點的承受能力。但是通過該框架,能夠實現最小化數據傳輸並最大化閃存吞吐量,從而減少數據負載、提高內存使用效率

研究結果顯示,與傳統的加載方法相比,該框架支持 DRAM 兩倍大小的模型,在 CPU 和 GPU 中推理速度可分別提升 4-5 倍、20-25 倍。研究團隊在文末總結道:

“這項突破性技術對於在資源有限的環境中部署先進的 LLM 尤為重要,從而擴大 LLM 適用性和可及性。”

手機巨頭們瞄準了 AI

在 AI 潮下,各大手機制造紛紛開始佈局 “人工智能 + 手機”。

據此前市場消息,蘋果將在其 iOS 18 中引入 AI,主要用於 Siri 和通訊應用程序的智能問答、生成語句等功能,此外,蘋果還在探索 AI 在 Apple Music、Page、Keynote 和 Xcode 等應用中的潛能。

三星於 11 月初推出其生成式 AI 模型 Samsung Gauss,報道稱該模型將納入即將於 2024 年初發布的 Galaxy S24 系列手機中,三星旗下筆記本電腦、平板電腦也有可能集成該模型。

谷歌的雙子星大模型(Gemini)也將集成到谷歌旗下產品,11 月,谷歌官宣 Gemini1.0 將在谷歌產品中逐步推出;Gemini Pro 將集成到 Bard 中以進行高級推理和規劃;Gemini Nano 將為 Pixel 8 Pro 智能手機的功能提供支持。