苹果加入开源大战,官宣端侧小模型 OpenELM!参数 2.7 亿到 30 亿一台 M2 Mac 可跑

華爾街見聞
2024.04.25 11:38
portai
我是 PortAI,我可以总结文章信息。

蘋果發佈了開源小模型 OpenELM,該模型有四個參數版本,可以在終端設備上運行。OpenELM 使用了分層縮放策略來提升準確率,並且在零樣本和少樣本設置中表現出色。這一舉動被認為是蘋果加入 AI 開源大戰的一部分,瞄準了競爭對手谷歌、三星和微軟。OpenELM 在筆記本和 M2 MacBook Pro 上都有良好的性能表現。該模型的發佈引起了不小的反響,因為小模型的運行成本更低且針對移動設備進行了優化。

從 Llama 3 到 Phi-3,蹭着開源熱乎勁兒,蘋果也來搞事情了。

今天,蘋果團隊發佈了 OpenELM,包含了 2.7 億、4.5 億、11 億和 30 億四個參數版本。

與微軟剛剛開源的 Phi-3 相同,OpenELM 是一款專為終端設備而設計的小模型。

論文地址:https://arxiv.org/abs/2404.14619

論文稱,OpenELM 使用了「分層縮放」策略,來有效分配 Transformer 模型每一層參數,從而提升準確率。

如下這張圖,一目瞭然。

在約 10 億參數規模下,OpenELM 與 OLMo 相比,準確率提高了 2.36%,同時需要的預訓練 token 減少了 2 倍。

抱抱臉創始人表示,蘋果加入了 AI 開源大戰,一口氣在 HF 中心發佈了四款模型。

OpenELM 有多強?

OpenELM 的誕生,顯然瞄準了谷歌、三星、微軟這類的競爭對手。

近幾天,微軟開源的 Phi-3,在 AI 社區引起了不小的反響。

因為,小模型的運行成本更低,而且針對手機和筆記本電腦等設備進行了優化。

根據論文介紹,蘋果這款模型不僅能在筆記本(配備英特爾 i9-13900KF CPU、RTX 4090 GPU,24GB 內存),還可以在 M2 MacBook Pro(64GiB 內存)運行。

而 OpenELM 具體性能表現如何?

在零樣本和少樣本設置中,OpenELM 的結果如下圖表 3 所示。

通過與開源的大模型比較,OpenELM 的變體比 12 億參數 OLMo 的準確率提高了 1.28%(表 4a)、2.36%(表 4b)和 1.72%(表 4c)。

值得注意的是,OpenELM 使用了 OLMo 少 2 倍的預訓練數據的情況下,達到了這一水平。

再來看模型指令微調的結果。

如下表 5 所示,在不同的評估框架中,指令微調都能將 OpenELM 的平均準確率提高 1-2%。

表 6 展示了參數高效微調的結果。PEFT 方法可以應用於 OpenELM,LoRA 和 DoRA 在給定的 CommonSense 推理數據集中,提供了相似的平均準確度。

下表 7a 和 7b 分別顯示了 GPU 和 MacBook Pro 上的基準測試結果。

儘管 OpenELM 對於相似的參數數量具有更高的精度,但研究人員觀察到 OpenELM 要比 OLMo 慢。

雖然本研究的主要重點是可重複性而非推理性能,但研究人員還是進行了全面分析,以瞭解瓶頸所在。

分析結果表明,OpenELM 處理時間的很大一部分,歸因於研究者對 RMSNorm 的簡單實現。

具體來説,簡單的 RMSNorm 實現會導致許多單獨的內核啓動,每個內核處理一個小輸入,而不是像 LayerNorm 那樣啓動一個融合的內核。

用 Apex 的 RMSNorm 替換簡單的 RMSNorm,結果發現 OpenELM 的吞吐量有了顯著提高。

然而,與使用優化 LayerNorm 的模型相比,性能差距仍然很大,部分原因是:

(1)OpenELM 有 113 個 RMSNorm 層,而 OLMo 只有 33 個 LayerNorm 層;

(2)Apex 的 RMSNorm 沒有針對小輸入進行優化。

作者貢獻

有趣的是,論文最後一部分還列出了每位作者,在這項研究中的具體貢獻。

從預訓練數據收集和工具、架構設計、模型訓練,到評估套件和工具、HF 集成、指令微調、參數高效微調,再到性能分析和 MLX 轉換、代碼審查,bug 修改和維護全程都分工明確。

具體每人蔘與的內容,如下圖所示。

新智元 (ID:AI_era),原文標題:《蘋果加入開源大戰,官宣端側小模型 OpenELM!參數 2.7 億到 30 億一台 M2 Mac 可跑》