SLM Counterattacks LLM? Microsoft Bets on Smaller, Cheaper "Large Models"

分析指出，微軟與 OpenAI 的緊密合作，使得 GPT 模型的表現在大模型市場一騎絕塵，再加上微軟參數規模更小的 Phi 系列，能進一步搶佔開源模型長尾市場。

在過去一年左右的時間裏，大模型（LLM）吸引了全球的注意力，從 GPT3.5、GPT-4 到 LLaMA 等開源模型。然而，種種跡象表明，小模型（SLM）如今越來越受到重視。

1 月 23 日，媒體援引兩位知情人士透露，微軟已經組建了一個新團隊來開發對話式 AI，與目前使用的 OpenAI 軟件相比，微軟開發的這種 AI 需要的計算資源更少。知情人士稱，微軟已將幾位頂尖 AI 開發人員，從其研究小組調至新的 GenAI 團隊。

上個月，微軟亮出了小模型大招，發佈 27 億參數規模的小語言模型 Phi-2，在部分基準測試中超過谷歌的 Gemini Nano 2，可以在筆記本電腦、手機等移動設備上運行。

微軟大、小模型兩手抓

上述知情人士表示，GenAI 團隊與微軟的另一個團隊 Turing 是分開的，Turing 開發了大模型來改進 Bing 和其他微軟產品。而 GenAI 團隊致力於開發小模型。

微軟的小模型 Phi 參數規模足夠小，但在處理某些任務上可以媲美 GPT-4。為了讓 Phi 表現足夠優秀，研究人員去年曾使用 GPT-4 生成了數百萬條高質量文本，並根據這些數據對 Phi 進行了訓練。

Phi 曾在 AI 研究社區中引起了轟動，此後，微軟又推出該模型的最新版本 Phi-2，作為開源模型提供給用它來構建自己的 AI 應用程序的 Azure 客户。高盛等公司近幾個月就一直在測試 Phi。

與此同時，微軟已經在研究如何利用小模型，來處理 Bing AI 聊天機器人和 Windows Copilot 用户較為基本的諮詢問題，以降低計算成本。

本月早些時候，在達沃斯論壇上，微軟首席執行官 Satya Nadella 誇讚了公司在小模型方面的工作，稱其為 “掌控我們自己命運” 的一種方式。

Nadella 表示："我們對擁有最好的前沿模型非常重視，當前最先進的大模型是 GPT-4。我們還有 Phi，它是微軟最好的小模型。因此，我們將擁有多樣化的模型。”

除了微軟之外，也是在上個月，法國初創公司 MistralAI 公佈的開源模型 Mixtral 8x7B 引起轟動。

華爾街見聞此前文章提到，模型 Mixtral 8x7B 規模參數相對較小，而能力卻能達到 GPT-3.5 的水平。

Mixtral 8x7B 之所以叫 Mixtral 8x7B，是因為它屬於稀疏模型，將各種為處理特定任務而訓練的較小模型組合在一起，從而提高了運行效率。

性能方面，Mixtral 表現優於 Llama 2 70B，推理速度提高了整整 6 倍；在大多數標準基準測試上與 GPT-3.5 打平，甚至略勝一籌。

成本方面，由於 Mixtral 的參數較小，所以其成本也更低。與 Llama 2 相比，Mixtral 8x7B 表現出自己高能效的優勢。

毫無疑問，規模較小的模型可以降低了大規模運行人工智能應用的成本，同時極大地拓寬了生成式 AI 技術的應用範圍。

值得一提的是，MistralAI 剛剛完成 4.15 億美元融資，最新估值已經衝破 20 億美元，在短短 6 個月中增長了 7 倍多。