
SLM Counterattacks LLM? Microsoft Bets on Smaller, Cheaper "Large Models"

分析指出,微軟與 OpenAI 的緊密合作,使得 GPT 模型的表現在大模型市場一騎絕塵,再加上微軟參數規模更小的 Phi 系列,能進一步搶佔開源模型長尾市場。
在過去一年左右的時間裏,大模型(LLM)吸引了全球的注意力,從 GPT3.5、GPT-4 到 LLaMA 等開源模型。然而,種種跡象表明,小模型(SLM)如今越來越受到重視。
1 月 23 日,媒體援引兩位知情人士透露,微軟已經組建了一個新團隊來開發對話式 AI,與目前使用的 OpenAI 軟件相比,微軟開發的這種 AI 需要的計算資源更少。知情人士稱,微軟已將幾位頂尖 AI 開發人員,從其研究小組調至新的 GenAI 團隊。
上個月,微軟亮出了小模型大招,發佈 27 億參數規模的小語言模型 Phi-2,在部分基準測試中超過谷歌的 Gemini Nano 2,可以在筆記本電腦、手機等移動設備上運行。
分析指出,微軟與 OpenAI 的緊密合作,使得 GPT 模型的表現在大模型市場一騎絕塵,再加上微軟參數規模更小的 Phi 系列,能進一步搶佔開源模型長尾市場。
微軟大、小模型兩手抓
上述知情人士表示,GenAI 團隊與微軟的另一個團隊 Turing 是分開的,Turing 開發了大模型來改進 Bing 和其他微軟產品。而 GenAI 團隊致力於開發小模型。
微軟的小模型 Phi 參數規模足夠小,但在處理某些任務上可以媲美 GPT-4。為了讓 Phi 表現足夠優秀,研究人員去年曾使用 GPT-4 生成了數百萬條高質量文本,並根據這些數據對 Phi 進行了訓練。
Phi 曾在 AI 研究社區中引起了轟動,此後,微軟又推出該模型的最新版本 Phi-2,作為開源模型提供給用它來構建自己的 AI 應用程序的 Azure 客户。高盛等公司近幾個月就一直在測試 Phi。
與此同時,微軟已經在研究如何利用小模型,來處理 Bing AI 聊天機器人和 Windows Copilot 用户較為基本的諮詢問題,以降低計算成本。
本月早些時候,在達沃斯論壇上,微軟首席執行官 Satya Nadella 誇讚了公司在小模型方面的工作,稱其為 “掌控我們自己命運” 的一種方式。
Nadella 表示:"我們對擁有最好的前沿模型非常重視,當前最先進的大模型是 GPT-4。我們還有 Phi,它是微軟最好的小模型。因此,我們將擁有多樣化的模型。”
“小模型” 開闢新戰場
除了微軟之外,也是在上個月,法國初創公司 MistralAI 公佈的開源模型 Mixtral 8x7B 引起轟動。
華爾街見聞此前文章提到,模型 Mixtral 8x7B 規模參數相對較小,而能力卻能達到 GPT-3.5 的水平。
Mixtral 8x7B 之所以叫 Mixtral 8x7B,是因為它屬於稀疏模型,將各種為處理特定任務而訓練的較小模型組合在一起,從而提高了運行效率。
性能方面,Mixtral 表現優於 Llama 2 70B,推理速度提高了整整 6 倍;在大多數標準基準測試上與 GPT-3.5 打平,甚至略勝一籌。
成本方面,由於 Mixtral 的參數較小,所以其成本也更低。與 Llama 2 相比,Mixtral 8x7B 表現出自己高能效的優勢。

毫無疑問,規模較小的模型可以降低了大規模運行人工智能應用的成本,同時極大地拓寬了生成式 AI 技術的應用範圍。
值得一提的是,MistralAI 剛剛完成 4.15 億美元融資,最新估值已經衝破 20 億美元,在短短 6 個月中增長了 7 倍多。
