手機能跑！微軟小模型擊敗 Llama 2，96 塊 A100 GPU 訓練 14 天，參數規模僅 27 億

微軟發佈了參數規模為 27 億的小語言模型 Phi-2，性能表現超過了 130 億參數規模的 Mistral 和 Llama 2，甚至超過了谷歌的 Gemini Nano 2。Phi-2 具有足夠小的參數規模，可以在筆記本電腦和手機等移動設備上運行。這一系列小型語言模型可以幫助研究人員在機器可解釋性、安全性改進或各種任務的微調實驗上進行探索。

智東西 12 月 13 日報道，昨日晚間，微軟又亮出了小模型大招！

微軟發佈了 27 億參數規模的小語言模型 Phi-2，經研究人員測試，Phi-2 在參數規模小於 130 億的模型中展示了最先進性能。

從性能表現看，Phi-2 在 Big Bench Hard（BBH）、常識推理、語言理解、數學和編碼基準測試中，其平均性能得分已經超過 70 億、130 億參數規模的 Mistral 和 Llama 2，在部分基準測試中超過谷歌的 Gemini Nano 2。

Phi-2 還有一大優勢是，因為參數規模足夠小，其可以在筆記本電腦、手機等移動設備上運行。

過去幾個月間，微軟研究院的機器學習基礎團隊陸續發佈了小型語言模型（SLM）Phi 系列。

其中，第一個模型為 13 億參數規模的 Phi-1，官方博客稱，Phi-1 在 SLM 中的 Python 編碼方面表現最好，在 HumanEval 和 MBPP 基準測試上尤甚。第二個模型為 13 億參數規模的 Phi-1.5，這個模型的重點為常識推理和語言理解能力。

現在微軟發佈的 Phi-2 能為研究人員探索機器可解釋性、安全性改進或對各種任務的微調實驗上提供幫助，目前，Phi-2 已經從 Azure AI Studio 模型目錄中開放給研究人員。

96 塊 A100 GPU 訓練 14 天參數規模僅 27 億

一些大模型的參數規模達到數千億的量級，使得其湧現出眾多新興能力，那麼，是否可以通過改變訓練策略等方式讓更小的參數實現這些能力？微軟的小型語言模型（SLM）系列或許是這一問題的答案。

Phi-2 是一個基於 Transformer 架構的模型，具有下一個單詞預測目標，在用於 NLP 和編碼的合成數據集和 Web 數據集的混合上多次傳遞的 1.4T tokens 上進行訓練。

Phi-2 在96 個 A100 GPU上訓練了 14 天，作為一個基礎模型，其沒有通過人類反饋強化學習（RLHF）進行對齊，也沒有進行指令微調。

儘管如此，與經過調整的現有開源模型 Llama 2-7B 相比，研究人員觀察到在避免生成有攻擊性、有害和內容有偏差方面 Phi-2 的表現也不差。

研究人員根據 ToxiGen 的 13 個人口統計數據計算的安全評分，他們選擇 6541 個句子的子集，並根據困惑度和句子 “毒性” 進行 0 到 1 之間的評分。分數高就説明，模型產生有攻擊性、有害句子的可能性較小。

▲Llama 2 與 Phi-2 在生成有攻擊性、有害和內容有偏差方面性能比較（圖源：微軟官方博客）

微軟使用 Phi-2 打破了傳統語言模型縮放定律，其中有兩個關鍵環節：

第一是訓練數據的質量對模型的性能至關重要。微軟的模型訓練數據包含專門創建的合成數據集，用於教授模型常識推理，還包括科學、心理等領域的常識。

研究人員還挑選了一些網絡數據進一步擴充訓練語料庫，並基於內容的價值和質量進行了數據過濾。

此外，從 13 億參數規模的 Phi-1.5 開始，微軟的研究人員實現了規模化的知識轉移，將 Phi-1.5 的知識嵌入到 27 億參數的 Phi-2 中。這種方法不僅加速了訓練收斂，而且提高了 Phi-2 的基準分數。

▲Phi-2 和 Phi-1.5 比較（圖源：微軟官方博客）

基準測試擊敗 Llama 2、Mistral、Gemini Nano 2

微軟總結了 Phi-2 在學術基準上與主流語言模型的性能表現對比。

其基準測試涵蓋 Big Bench Hard（BBH 數據集）以及 PIQA、WinoGrande、ARC easy、Challenge、SIQA 的常識推理、HellaSwag、OpenBookQA、MMLU、SQuADv2 的語言理解數據集，GSM8k 數學數據集和 HumanEval、MBPP 的編碼數據集等。

27 億參數規模的 Phi-2，在 BBH、常識推理、語言理解、數學、編碼各項基準測評上都超過了 70 億、130 億參數規模的 Mistral 和 Llama 2。

相比於參數規模差距在 25 倍的 700 億參數 Llama 2，Phi-2 在編碼、數學等多步推理任務上表現更好。

▲Llama 2、Mistral、Phi-2 性能比較（圖源：微軟官方博客）

此外，微軟還比較了 Phi-2 與谷歌最近發佈的 Gemini Nano 2，谷歌發佈的模型參數規模為 32.5 億，Phi-2 的性能表現部分優於 Gemini Nano 2。

▲Phi-2、Gemini Nano 2 性能比較（圖源：微軟官方博客）

考慮到一些公共基準測試的數據可能會泄漏到訓練數據中，微軟對第一個模型 Phi-1 進行了廣泛的淨化研究以排除這種可能性。

基於判斷語言模型的最佳方法是在具體用例上對其進行測試的考量，研究人員使用了多個微軟內部專有數據集和任務評估了 Phi-2，並再次將其與 Mistral 和 Llama 2 進行比較，其結果為，平均而言 Phi 2 優於 Mistral-7B，後者優於 70 億、130 億、730 億參數規模的 Llama-2 模型。

除了基準測試外，研究人員還測試了社區內的一些常用提示，他們觀察到的表現也與基準測試的結果預期一致。

其中，研究人員測試了用於評估谷歌 Gemini Ultra 模型在解決物理問題方面能力的問題。

與 Gemini 的測試類似，研究人員進一步向 Phi-2 詢問學生的錯誤答案，來確認它是否能識別出錯誤所在。

不過，從輸出結果來看，這並不完全是與 Gemini 報告中描述的 Gemini Ultra 輸出的同類比較，Gemini 測評中學生的答案上傳了手寫文本的圖像，Phi-2 的測試採用的是原始文本。

結語：大模型時代，小模型仍在崛起

Phi-2 的參數規模僅有 27 億，但相比於參數規模更大的 70 億、130 億模型，其性能表現仍不遜色。微軟專注於小模型市場的佈局，也印證了大模型時代小模型的價值。

微軟與 OpenAI 的緊密合作，使得 GPT 模型的表現在大模型市場一騎絕塵，再加上微軟參數規模更小的 Phi 系列，能進一步搶佔開源模型長尾市場。不過從目前來看，Phi 系列僅被允許用於研究目的。

從市場來看，越來越多的玩家開始探索在手機等移動設備上部署大模型，微軟此舉或許也會加速模型能力在端側的應用。

本文作者：程茜，來源：智東西 (ID:zhidxcom)，原文標題：《手機能跑！微軟小模型擊敗 Llama 2，96 塊 A100 GPU 訓練 14 天，參數規模僅 27 億》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

手機能跑！微軟小模型擊敗 Llama 2，96 塊 A100 GPU 訓練 14 天，參數規模僅 27 億

96 塊 A100 GPU 訓練 14 天 參數規模僅 27 億

基準測試擊敗 Llama 2、Mistral、Gemini Nano 2

結語：大模型時代，小模型仍在崛起

96 塊 A100 GPU 訓練 14 天參數規模僅 27 億