4050 亿参数!Meta 或将 7 月 23 日发布迄今最强大 Llama 3 模型

Wallstreetcn
2024.07.12 21:03
portai
I'm PortAI, I can summarize articles.

今年 4 月发布 8B 和 70B 两个版本的 Llama 3 模型时,Meta 预告,该模型最大参数规模超 4000 亿,训练 token 超 15 万亿。本周五媒体获悉,4050 亿参数的 Llama 3 也将是多模态模型,未透露是否开源。

本文作者:李丹

来源:硬 AI

不到两周后,我们可能就会见到迄今为止最强大的开源 Llama 3 模型。

美东时间 7 月 12 日周五,媒体援引一名 Meta Platforms 的员工消息称,Meta 计划 7 月 23 日发布旗下第三代大语言模型(LLM)Llama 3 的最大版本。这一最新版模型将拥有 4050 亿参数,也将是多模态模型,这意味着它将能够理解和生成图像和文本。该媒体未透露这一最强版本是否开源。

Meta 公司拒绝对上述消息置评。周五盘中,低开的 Meta 股价跌幅收窄,盘初曾跌 3.6%,此后跌幅曾收窄到不足 2%,但尾盘跌幅扩大,收跌 2.7%,在周四大幅回落超 4% 后连跌两日,刷新 6 月 21 日以来收盘低位。

去年 7 月 Meta 发布的 Llama 2 有三个版本,最大版本 70B 的参数规模为 700 亿。今年 4 月,Meta 发布 Llama 3Meta,称它为 “迄今为止能力最强的开源 LLM”。当时推出的 Llama 3 有 8B 和 70B 两个版本。

Meta CEO 扎克伯格当时称,大版本的 Llama 3 将有超过 4000 亿参数。Meta 并未透露会不会将 4000 亿参数规模的 Llama 3 开源,当时它还在接受训练。

对比前代,Llama 3 有了质的飞跃。Llama 2 使用 2 万亿个 token 进行训练,而训练 Llama 3 大版本的 token 超过 15 万亿。

Meta 称,由于预训练和训练后的改进,其预训练和指令调优的模型是目前 8B 和 70B 两个参数规模的最佳模型。在训练后程序得到改进后,模型的错误拒绝率(FRR)大幅下降,一致性提高,模型响应的多样性增加。 在推理、代码生成和指令跟踪等功能方面,Llama 3 相比 Llama 2 有极大改进,使 Llama 3 更易于操控。

4 月 Meta 展示,8B 和 70B 版本的 Llama 3 指令调优模型在大规模多任务语言理解数据集(MMLU)、研究生水平专家推理(GPQA)、数学评测集(GSM8K)、编程多语言测试(HumanEval)等方面的测评得分都高于 Mistral、谷歌的 Gemma 和 Gemini 和 Anthropic 的 Claude 3。8B 和 70B 版本的预训练 Llama 3 多种性能测评优于 Mistral、Gemma、Gemini 和 Mixtral。

当时社交媒体的网友评论称,根据基准测试,当前的 Llama 3 模型不完全是 GPT-4 级别的,但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。

英伟达高级科学家 Jim Fan 认为,Llama 3 的推出已经脱离了技术层面的进步,更是开源模型与顶尖闭源模型可分庭抗礼的象征

从 Jim Fan 分享的基准测试可以看出,Llama 3 400B 的实力几乎媲美 Claude“超大杯” 以及新版 GPT-4 Turbo,将成为 “分水岭”,相信它将释放巨大的研究潜力,推动整个生态系统的发展,开源社区或将能用上 GPT-4 级别的模型

此后有消息称,研究人员尚未开始对 Llama 3 进行微调,还未决定 Llama 3 是否将是多模态模型;正式版的 Llama 3 将会在今年 7 月正式推出。

不同于 OpenAI 等开发商,Meta 致力于开源 LLM,不过,这个赛道也越来越拥挤。谷歌、特斯拉 CEO 马斯克旗下的 xAI 和 Mistral 等竞争对手也发布了免费的 AI 模型。

Llama 3 问世后,同在 4 月亮相的4800 亿参数模型 Arctic击败 Llama 3、Mixtra,刷新了全球最大开源模型的纪录。

Arctic 基于全新的 Dense-MoE 架构设计,由一个 10B 的稠密 Tranformer 模型和 128×3.66B 的 MoE MLP 组成,并在 3.5 万亿个 token 上进行了训练。相比 Llama 3 8B 和 Llama 2 70B,Arctic 所用的训练计算资源不到它们的一半,评估指标却取得了相当的分数。