AI iPhone Prelude? Apple publishes paper to solve "running large models on mobile memory"

這項新研究支持有限容量的設備運行內存 2 倍大小的 LLM，GPU 的推理速度可以提升數十倍。媒體稱，蘋果將生成式 AI 集成到 iOS 18 的計劃或將加快推進。

AI iPhone 要來了？

據媒體報道，近日，蘋果發佈了一篇論文，介紹了一種可以再超出可用 DRAM 容量的設備上運行 LLM（大語言模型）的方法。

通過大幅提高內存使用效率，這項新研究支持有限容量的設備運行內存 2 倍大小的 LLM，GPU 的推理速度可以提升數十倍。

論文稱，LLM 密集的計算量和內存要求對於 DRAM 容量來説是一大挑戰，該論文構建了一個以閃存為基礎的推理成本模型，將在兩個關鍵領域進行優化：減少從閃存中傳輸的數據量、更多更流暢地讀取數據塊。

這意味着，該項突破性研究擴大了 LLM 適用性和可及性，蘋果將生成式 AI 集成到 iOS 18 的計劃或將加快推進。

LLM 能在手機上運行了？

一般來説，DRAM 就是我們常説的 “內存”，而 flash（閃存）指的是硬盤。

運算數據時，CPU 通常會以 DRAM 為 “中間橋樑”，把硬盤中的數據複製到內存中來，再在內存中做數據處理，這樣速度可以提升至數百萬倍。

但在容量上，DRAM 相較於硬盤要小一個數量級。而 LLM 運行時，需要同時處理的數據量龐大，對容量有限的設備來説構成了極大的挑戰。

但這篇論文提出的新框架似乎發現了突破點。該框架旨在將模型參數存儲在閃存中，在需要的時候再將數據調入 DRAM，解決了 LLM 運行時數據處理量超過 DRAM 可用容量的的難題。

具體而言，蘋果主要運用了兩種技術：

（1）“窗口化” 技術：重複使用此前激活過的神經元，以此減少數據傳輸；

（2）“行列捆綁” 技術：針對閃存的數據特徵，定製訪問數據塊的順序，從而增加從閃存讀取的數據塊大小。

論文提及，一個 70 億參數的模型就需要超過 14GB 的內存來加載半精度浮點格式的參數，超過了大多數網絡端點的承受能力。但是通過該框架，能夠實現最小化數據傳輸並最大化閃存吞吐量，從而減少數據負載、提高內存使用效率。

研究結果顯示，與傳統的加載方法相比，該框架支持 DRAM 兩倍大小的模型，在 CPU 和 GPU 中推理速度可分別提升 4-5 倍、20-25 倍。研究團隊在文末總結道：

“這項突破性技術對於在資源有限的環境中部署先進的 LLM 尤為重要，從而擴大 LLM 適用性和可及性。”

在 AI 潮下，各大手機制造紛紛開始佈局 “人工智能 + 手機”。

據此前市場消息，蘋果將在其 iOS 18 中引入 AI，主要用於 Siri 和通訊應用程序的智能問答、生成語句等功能，此外，蘋果還在探索 AI 在 Apple Music、Page、Keynote 和 Xcode 等應用中的潛能。

三星於 11 月初推出其生成式 AI 模型 Samsung Gauss，報道稱該模型將納入即將於 2024 年初發布的 Galaxy S24 系列手機中，三星旗下筆記本電腦、平板電腦也有可能集成該模型。

谷歌的雙子星大模型（Gemini）也將集成到谷歌旗下產品，11 月，谷歌官宣 Gemini1.0 將在谷歌產品中逐步推出；Gemini Pro 將集成到 Bard 中以進行高級推理和規劃；Gemini Nano 將為 Pixel 8 Pro 智能手機的功能提供支持。