Apple's AI-powered iOS debuts with a bang: Instantly boosts conversational EQ, large models become the ultimate mouthpiece, Siri undergoes a magnificent transformation

華爾街見聞
2024.07.30 07:39

蘋果 AI 版 iOS 首日火爆,Siri 全面換新變身為 Apple Intelligence & Siri,能潤色推特評論及儒雅處理不雅言辭。蘋果大模型使用谷歌 TPU 集羣進行訓練,取得了超過 GPT-4 的成績。蘋果基礎大模型團隊負責人龐若鳴表示,這些基礎模型支持廣泛的功能,包括摘要、寫作幫助、工具使用和代碼。

它來了它來了,蘋果的 Apple Intelligence 終於與果粉見面了!

隨着 iOS 18.1 Beta 版的上線,註冊開發者從即日起就能體驗到蘋果 AI 的部分功能。

最明顯的一處就是 Siri 的全面換新,變身成了 Apple Intelligence & Siri。

另一項重磅更新就是寫作功能了,它可以幫忙潤色推特評論,三下五除二就能把高級表達方式安排起來。

甚至 dirty words 也能分分鐘變得儒雅隨和:

開啓 Apple Intelligence 後,蘋果自研的端側大模型就會被下載到設備當中。

根據手快的網友體驗反饋,不像其他家的 AI 那樣動不動就是拒絕服務。

與此同時,蘋果自家大模型的報告也已出爐,披露了大量技術細節。

報告顯示,在指令遵循、文本總結等任務上,蘋果雲端大模型取得了超過 GPT-4 的成績。

蘋果基礎大模型團隊負責人龐若鳴(Ruoming Pang)也表示,其模型與一些同類最佳模型相比具有競爭力。

龐若鳴是普林斯頓計算機博士,本碩分別畢業於上海交大和南加州大學,於 2021 年加入蘋果,此前在谷歌擔任了 15 年的工程師。

Apple Intelligence 的主要對話功能,正是由他率領的團隊研發的模型提供支持。

這次他還強調,這些基礎模型 “並不是聊天機器人”,而是支持廣泛的功能,包括摘要、寫作幫助、工具使用和代碼。

另外,蘋果也研發了許多自研算法,為提高模型表現提供了加持,具體信息也在報告中被披露。

還有細心的網友從中發現了華點——

蘋果大模型的訓練用的是谷歌 TPU 集羣,英偉達含量竟然為零。

Siri 升級,但 ChatGPT 暫未接入

要想體驗到蘋果的 Apple Intelligence,需要滿足的條件有不少。

首先,搭載它的 iOS 18.1 Beta 版目前是 99 美金一年的註冊開發者限定,所以普通用户還得等等。

還有就是之前説過的,只支持 M 系和 A17 Pro 芯片,也就是説 iPhone 中只有部分地區的 15 Pro 和 15 Pro Max 能用。

除了硬件和身份要求,系統設置也需要修改,要將地區設置為美國,且設備和 Siri 的語言都要改成英語。

滿足了所有這些要求之後,就可以……加入等待隊列了。

此次上線的 Apple Intelligence 是部分功能,主要圍繞文本生成、Siri 和相冊這幾個模塊。

先説文本生成,作為蘋果 AI 的重要組成部分,該功能的視適用範圍不侷限於蘋果官方應用。

只要使用標準輸入文本系統,在第三方應用程序當中也能利用該功能進行文本總結、校對和重寫。

另外結合 iOS 18 Beta 的語音備忘錄中已經上線的音頻轉錄功能,文本生成系統還可以為錄音生成摘要。

第二個比較重要的更新就是 Siri 了。

界面上,新版 Siri 不再是一個圓形圖標,在運行時會有環繞屏幕的彩色光不斷閃動。

而且還給不想語音對話的用户提供了文本對話方式,雙擊屏幕底部即可調出鍵盤,與 Siri 打字交流。

內容方面,新版 Siri 將能夠解答與蘋果產品相關的問題,幫助用户進行故障排除。

另外,新的 Siri 還可以夠理解從一個查詢到下一個查詢的上下文,例如要求 Siri 創建日曆事件,然後請求創建提醒,而無需重述正在談論的內容。

不過,之前介紹的屏幕感知功能,並未包含在此次 Siri 的更新當中。


相冊的更新則讓用户可以用自然語言搜索特定照片,甚至是視頻當中的具體時刻。

以上就是本次開發者測試版本中有關 AI 的大致內容,需要指出的是,這只是之前發佈會上所展示的功能中的一部分,還有很多沒有上線。

特別地,之前提到過的 ChatGPT 集成,此次更新也暫未接入。

解密蘋果大模型

蘋果已經説過,ChatGPT 在蘋果 AI 中不是必選項,主要功能是由自家的大模型驅動。

而關於這個模型,蘋果也在上線的同時發佈了全面的技術報告。

模型的名字簡單粗暴,就叫蘋果基礎模型(Apple Foundation Model,簡稱 AFM),有端側(on-device)和雲側(server)兩個版本。

端側模型的參數量在 3B 左右,雲側則未具體透露,只説是比端側更大,二者都有 32k 的上下文窗口。

訓練過程英偉達含量為 0

模型的訓練通過自家基於 JAX 的 AXLearn 框架進行,並採用了張量並行、流水並行等策略。

硬件則採用的是谷歌 TPU,其中雲側用了 8192 顆 TPUv4 芯片,端側用了 2048 顆 TPUv5p 芯片,總之英偉達含量為 0。

數據則主要來源於通過 Applebot 爬取的網頁,以及有公共許可的代碼和數學數據集。

值得一提的是,蘋果選用的數據集中無一使用 GPL,都是 MIT、Apache、CC0 這些開放程度更高的開源協議。

流程上,AFM 的預訓練過程共分三個階段——核心訓練、繼續訓練和上下文延長。

在核心訓練階段中,雲側版本的數據量有 6.3T tokens,窗口長度為 4096,端側版本則是在此基礎之上蒸餾得到。

繼續訓練時,低質量數據的權重會被降低,並使用數學、代碼以及獲得授權的高質量數據,對模型能力進行提升。

該過程使用了 1T tokens 的數據,窗口長度也從 4096 變成了 8192。

到了下一階段,窗口長度被進一步擴充到 32k,涉及長序列文本和合成數據,總量為 100B tokens。

獨創強化學習新算法

AFM 的後訓練則包括指導監督微調(SFT)、人類反饋強化學習(RLHF)等工作。

其中 SFT 階段使用了合成數據與人類標註數據,合成數據主要關於數學、工具使用和代碼。

而在 RLHF 階段,蘋果自創了 iTeC 和 MDLOO 兩種強化學習算法。

iTeC 全稱 Iterative Teaching Committee,可譯作 “迭代教學委員會”,是一種用於強化學習後訓練的算法,旨在通過多輪迭代優化模型的性能。

其核心思想是結合不同的偏好優化算法,包括拒絕採樣、直接偏好優化(DPO),使得模型能夠從多種優化策略中受益,從而提高其對特定任務的適應性和性能。

在每次迭代中,iTeC 會從最新的模型中選擇一組表現最好的模型,形成一個 “模型委員會”。這些模型是經過 SFT、RS、DPO/IPO 和 RL 等不同訓練方法得到的。

通過收集人類對模型響應的偏好反饋,iTeC 不斷更新其獎勵模型,並用於訓練新的模型集合。

每收集一批人類偏好數據後,iTeC 會刷新其獎勵模型,並訓練新的模型集合,以此循環進行多輪迭代,逐步提升模型性能。

MDLOO 則是一種在線強化學習算法,特別設計用於優化模型的響應質量。

作為在線算法,它能在模型訓練過程中實時解碼響應,並應用 RL 算法來最大化獎勵。

也就是説,這種方法使得模型能夠在訓練過程中不斷學習和調整其策略,以生成更符合人類偏好的響應。

具體實現上,它結合了留一法(Leave-One-Out,LOO)優勢估計器和鏡像下降策略優化(MDPO),以實現更穩定和有效的策略更新。

端側混合精度量化

為了讓端側模型更高效運行,同時避免佔用過多內存資源,蘋果對 AFM 的端側版本進行了量化操作。

具體來説,蘋果採用了混合精度的量化方式,針對不同環節採用了不同的量化精度。

蘋果採用的方式被稱為 “調色板” 策略,在調色板量化中,權重不是每個單獨量化,而是將它們分組,並讓組內的權重共享相同的量化常數。

對於投影權重,每 16 列/行共享相同的量化常數,並且使用 K-means 算法進行 4 位量化。

針對嵌入層,由於是輸入和輸出共享的,採用了 8 位整數進行每通道量化,另外還有某些重要性相對較低的層被進一步壓縮到 2 位量化。

為了恢復量化後損失的性能,以保持模型的輸出質量和準確性,蘋果還引入了準確性恢復適配器(Accuracy-Recovery Adapters)。

該適配器是小型的神經網絡模塊,可以插入到預訓練模型的特定層中,在量化模型的基礎上進行訓練,通過微調來學習如何補償量化帶來的影響。

部分任務超越 GPT-4

應用了一系列優化技術之後,也到了驗收模型表現的時候了。

在這過程中,蘋果採用了人類評估與自動化評估相結合的策略。

先説人工評估,評估人員設計了涵蓋分析推理、頭腦風暴、聊天機器人等方面的多類問題,並讓模型生成相應。

同時,問題也會被提給用於對比的其他模型,然後由評估人員評判哪個模型的輸出更好。

結果,無論是雲側還是端側模型,都有至少 60% 的概率不輸給 Llama 3、GPT-4 等對比模型。

其餘的測試主要利用數據集實現。

在指令遵循能力上,蘋果進行了 IFEval 測試,結果在指令和 prompt 兩個層次上,雲側 AFM 都超過了 GPT-4,成為了新的 SOTA。

端側模型的表現,也超過了 Llama 3-8B、Mistral-7B 等近似規模的模型。

在 AlpacaEval 當中,端側和雲側 AFM 也都取得了第二名的成績。

再看具體任務上的表現,AFM 在寫作類 Benchmark 當中的總結任務上取得了 SOTA,撰寫任務上也與第一名接近。

數學上,蘋果用 GSM8K 和 MATH 兩個數據集進行了評估。

結果端側模型在 GSM8K 上不敵 Llama 3-8B 和微軟的 Phi 3 mini,雲側被 GPT-4 和 Llama 3-70B 超越,但優於 GPT-3.5。

MATH 上的成績相對高些,端側版領先了同規模模型,雲側版也超越了 Llama 3-70B。

性能之外,安全性也十分重要,蘋果通過人工方式對 AFM 抵禦對抗性攻擊的能力進行了評估。

結果顯示,AFM 在面對對抗性提示時,實現的違反率顯著低於其他開源和商業模型。

以上就是蘋果大模型技術報告中一些值得關注的內容,更多詳情可參閲報告原文。

One More Thing

雖然 Apple Intelligence 已經提供給開發者進行測試,但彭博社爆料説,正式版可能會延遲上線。

的確,按照蘋果此前的版本發佈規律,18.1 的版本號也意味着,這些功能不會隨着 9 月的新機發布一同上線。

對此分析師 Gene Munster 建議,蘋果應該考慮推遲 iPhone 16 的發佈日期,以與 Apple Intelligence 保持一致。

至於庫克會不會考慮這個建議,就拭目以待了。

本文作者:量子位 克雷西,來源於:量子位,原文標題:蘋果 AI 版 iOS 首日火爆:聊天秒變高情商,大模型成最強嘴替,Siri 華麗變身