4050 亿参数！Meta 或将 7 月 23 日发布迄今最强大 Llama 3 模型

今年 4 月发布 8B 和 70B 两个版本的 Llama 3 模型时，Meta 预告，该模型最大参数规模超 4000 亿，训练 token 超 15 万亿。本周五媒体获悉，4050 亿参数的 Llama 3 也将是多模态模型，未透露是否开源。

本文作者：李丹

来源：硬 AI

不到两周后，我们可能就会见到迄今为止最强大的开源 Llama 3 模型。

美东时间 7 月 12 日周五，媒体援引一名 Meta Platforms 的员工消息称，Meta 计划 7 月 23 日发布旗下第三代大语言模型（LLM）Llama 3 的最大版本。这一最新版模型将拥有 4050 亿参数，也将是多模态模型，这意味着它将能够理解和生成图像和文本。该媒体未透露这一最强版本是否开源。

Meta 公司拒绝对上述消息置评。周五盘中，低开的 Meta 股价跌幅收窄，盘初曾跌 3.6%，此后跌幅曾收窄到不足 2%，但尾盘跌幅扩大，收跌 2.7%，在周四大幅回落超 4% 后连跌两日，刷新 6 月 21 日以来收盘低位。

去年 7 月 Meta 发布的 Llama 2 有三个版本，最大版本 70B 的参数规模为 700 亿。今年 4 月，Meta 发布 Llama 3Meta，称它为 “迄今为止能力最强的开源 LLM”。当时推出的 Llama 3 有 8B 和 70B 两个版本。

Meta CEO 扎克伯格当时称，大版本的 Llama 3 将有超过 4000 亿参数。Meta 并未透露会不会将 4000 亿参数规模的 Llama 3 开源，当时它还在接受训练。

对比前代，Llama 3 有了质的飞跃。Llama 2 使用 2 万亿个 token 进行训练，而训练 Llama 3 大版本的 token 超过 15 万亿。

Meta 称，由于预训练和训练后的改进，其预训练和指令调优的模型是目前 8B 和 70B 两个参数规模的最佳模型。在训练后程序得到改进后，模型的错误拒绝率（FRR）大幅下降，一致性提高，模型响应的多样性增加。在推理、代码生成和指令跟踪等功能方面，Llama 3 相比 Llama 2 有极大改进，使 Llama 3 更易于操控。

4 月 Meta 展示，8B 和 70B 版本的 Llama 3 指令调优模型在大规模多任务语言理解数据集（MMLU）、研究生水平专家推理（GPQA）、数学评测集（GSM8K）、编程多语言测试（HumanEval）等方面的测评得分都高于 Mistral、谷歌的 Gemma 和 Gemini 和 Anthropic 的 Claude 3。8B 和 70B 版本的预训练 Llama 3 多种性能测评优于 Mistral、Gemma、Gemini 和 Mixtral。

当时社交媒体的网友评论称，根据基准测试，当前的 Llama 3 模型不完全是 GPT-4 级别的，但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。

英伟达高级科学家 Jim Fan 认为，Llama 3 的推出已经脱离了技术层面的进步，更是开源模型与顶尖闭源模型可分庭抗礼的象征。

从 Jim Fan 分享的基准测试可以看出，Llama 3 400B 的实力几乎媲美 Claude“超大杯” 以及新版 GPT-4 Turbo，将成为 “分水岭”，相信它将释放巨大的研究潜力，推动整个生态系统的发展，开源社区或将能用上 GPT-4 级别的模型。

此后有消息称，研究人员尚未开始对 Llama 3 进行微调，还未决定 Llama 3 是否将是多模态模型；正式版的 Llama 3 将会在今年 7 月正式推出。

不同于 OpenAI 等开发商，Meta 致力于开源 LLM，不过，这个赛道也越来越拥挤。谷歌、特斯拉 CEO 马斯克旗下的 xAI 和 Mistral 等竞争对手也发布了免费的 AI 模型。

Llama 3 问世后，同在 4 月亮相的4800 亿参数模型 Arctic击败 Llama 3、Mixtra，刷新了全球最大开源模型的纪录。

Arctic 基于全新的 Dense-MoE 架构设计，由一个 10B 的稠密 Tranformer 模型和 128×3.66B 的 MoE MLP 组成，并在 3.5 万亿个 token 上进行了训练。相比 Llama 3 8B 和 Llama 2 70B，Arctic 所用的训练计算资源不到它们的一半，评估指标却取得了相当的分数。