SLM Counterattacks LLM? Microsoft Bets on Smaller, Cheaper "Large Models"

华尔街见闻
2024.01.24 05:38
portai
I'm PortAI, I can summarize articles.

分析指出,微软与 OpenAI 的紧密合作,使得 GPT 模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的 Phi 系列,能进一步抢占开源模型长尾市场。

在过去一年左右的时间里,大模型(LLM)吸引了全球的注意力,从 GPT3.5、GPT-4 到 LLaMA 等开源模型。然而,种种迹象表明,小模型(SLM)如今越来越受到重视。

1 月 23 日,媒体援引两位知情人士透露,微软已经组建了一个新团队来开发对话式 AI,与目前使用的 OpenAI 软件相比,微软开发的这种 AI 需要的计算资源更少。知情人士称,微软已将几位顶尖 AI 开发人员,从其研究小组调至新的 GenAI 团队。

上个月,微软亮出了小模型大招,发布 27 亿参数规模的小语言模型 Phi-2,在部分基准测试中超过谷歌的 Gemini Nano 2,可以在笔记本电脑、手机等移动设备上运行。

分析指出,微软与 OpenAI 的紧密合作,使得 GPT 模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的 Phi 系列,能进一步抢占开源模型长尾市场。

微软大、小模型两手抓

上述知情人士表示,GenAI 团队与微软的另一个团队 Turing 是分开的,Turing 开发了大模型来改进 Bing 和其他微软产品。而 GenAI 团队致力于开发小模型。

微软的小模型 Phi 参数规模足够小,但在处理某些任务上可以媲美 GPT-4。为了让 Phi 表现足够优秀,研究人员去年曾使用 GPT-4 生成了数百万条高质量文本,并根据这些数据对 Phi 进行了训练。

Phi 曾在 AI 研究社区中引起了轰动,此后,微软又推出该模型的最新版本 Phi-2,作为开源模型提供给用它来构建自己的 AI 应用程序的 Azure 客户。高盛等公司近几个月就一直在测试 Phi。

与此同时,微软已经在研究如何利用小模型,来处理 Bing AI 聊天机器人和 Windows Copilot 用户较为基本的咨询问题,以降低计算成本。

本月早些时候,在达沃斯论坛上,微软首席执行官 Satya Nadella 夸赞了公司在小模型方面的工作,称其为 “掌控我们自己命运” 的一种方式。

Nadella 表示:"我们对拥有最好的前沿模型非常重视,当前最先进的大模型是 GPT-4。我们还有 Phi,它是微软最好的小模型。因此,我们将拥有多样化的模型。”

“小模型” 开辟新战场

除了微软之外,也是在上个月,法国初创公司 MistralAI 公布的开源模型 Mixtral 8x7B 引起轰动。

华尔街见闻此前文章提到,模型 Mixtral 8x7B 规模参数相对较小,而能力却能达到 GPT-3.5 的水平。

Mixtral 8x7B 之所以叫 Mixtral 8x7B,是因为它属于稀疏模型,将各种为处理特定任务而训练的较小模型组合在一起,从而提高了运行效率。

性能方面,Mixtral 表现优于 Llama 2 70B,推理速度提高了整整 6 倍;在大多数标准基准测试上与 GPT-3.5 打平,甚至略胜一筹。

成本方面,由于 Mixtral 的参数较小,所以其成本也更低。与 Llama 2 相比,Mixtral 8x7B 表现出自己高能效的优势。

毫无疑问,规模较小的模型可以降低了大规模运行人工智能应用的成本,同时极大地拓宽了生成式 AI 技术的应用范围。

值得一提的是,MistralAI 刚刚完成 4.15 亿美元融资,最新估值已经冲破 20 亿美元,在短短 6 个月中增长了 7 倍多。