Latest News Yesterday News Quote List Topic List Quote List

蘋果加入開源大戰，官宣端側小模型 OpenELM！參數 2.7 億到 30 億一台 M2 Mac 可跑

華爾街見聞

2024.04.25 11:38

portai

I'm PortAI, I can summarize articles.

蘋果發佈了開源小模型 OpenELM，該模型有四個參數版本，可以在終端設備上運行。OpenELM 使用了分層縮放策略來提升準確率，並且在零樣本和少樣本設置中表現出色。這一舉動被認為是蘋果加入 AI 開源大戰的一部分，瞄準了競爭對手谷歌、三星和微軟。OpenELM 在筆記本和 M2 MacBook Pro 上都有良好的性能表現。該模型的發佈引起了不小的反響，因為小模型的運行成本更低且針對移動設備進行了優化。

從 Llama 3 到 Phi-3，蹭着開源熱乎勁兒，蘋果也來搞事情了。

今天，蘋果團隊發佈了 OpenELM，包含了 2.7 億、4.5 億、11 億和 30 億四個參數版本。

與微軟剛剛開源的 Phi-3 相同，OpenELM 是一款專為終端設備而設計的小模型。

論文地址：https://arxiv.org/abs/2404.14619

論文稱，OpenELM 使用了「分層縮放」策略，來有效分配 Transformer 模型每一層參數，從而提升準確率。

如下這張圖，一目瞭然。

在約 10 億參數規模下，OpenELM 與 OLMo 相比，準確率提高了 2.36%，同時需要的預訓練 token 減少了 2 倍。

抱抱臉創始人表示，蘋果加入了 AI 開源大戰，一口氣在 HF 中心發佈了四款模型。

OpenELM 有多強？

OpenELM 的誕生，顯然瞄準了谷歌、三星、微軟這類的競爭對手。

近幾天，微軟開源的 Phi-3，在 AI 社區引起了不小的反響。

因為，小模型的運行成本更低，而且針對手機和筆記本電腦等設備進行了優化。

根據論文介紹，蘋果這款模型不僅能在筆記本（配備英特爾 i9-13900KF CPU、RTX 4090 GPU，24GB 內存），還可以在 M2 MacBook Pro（64GiB 內存）運行。

而 OpenELM 具體性能表現如何？

在零樣本和少樣本設置中，OpenELM 的結果如下圖表 3 所示。

通過與開源的大模型比較，OpenELM 的變體比 12 億參數 OLMo 的準確率提高了 1.28%（表 4a）、2.36%（表 4b）和 1.72%（表 4c）。

值得注意的是，OpenELM 使用了 OLMo 少 2 倍的預訓練數據的情況下，達到了這一水平。

再來看模型指令微調的結果。

如下表 5 所示，在不同的評估框架中，指令微調都能將 OpenELM 的平均準確率提高 1-2%。

表 6 展示了參數高效微調的結果。PEFT 方法可以應用於 OpenELM，LoRA 和 DoRA 在給定的 CommonSense 推理數據集中，提供了相似的平均準確度。

下表 7a 和 7b 分別顯示了 GPU 和 MacBook Pro 上的基準測試結果。

儘管 OpenELM 對於相似的參數數量具有更高的精度，但研究人員觀察到 OpenELM 要比 OLMo 慢。

雖然本研究的主要重點是可重複性而非推理性能，但研究人員還是進行了全面分析，以瞭解瓶頸所在。

分析結果表明，OpenELM 處理時間的很大一部分，歸因於研究者對 RMSNorm 的簡單實現。

具體來説，簡單的 RMSNorm 實現會導致許多單獨的內核啓動，每個內核處理一個小輸入，而不是像 LayerNorm 那樣啓動一個融合的內核。

用 Apex 的 RMSNorm 替換簡單的 RMSNorm，結果發現 OpenELM 的吞吐量有了顯著提高。

然而，與使用優化 LayerNorm 的模型相比，性能差距仍然很大，部分原因是：

（1）OpenELM 有 113 個 RMSNorm 層，而 OLMo 只有 33 個 LayerNorm 層；

（2）Apex 的 RMSNorm 沒有針對小輸入進行優化。

作者貢獻

有趣的是，論文最後一部分還列出了每位作者，在這項研究中的具體貢獻。

從預訓練數據收集和工具、架構設計、模型訓練，到評估套件和工具、HF 集成、指令微調、參數高效微調，再到性能分析和 MLX 轉換、代碼審查，bug 修改和維護全程都分工明確。

具體每人蔘與的內容，如下圖所示。

新智元 (ID:AI_era)，原文標題：《蘋果加入開源大戰，官宣端側小模型 OpenELM！參數 2.7 億到 30 億一台 M2 Mac 可跑》