AI 水平、算力储备、迭代方向……有关通义大模型的一切，这是阿里自己的解答！

阿里国内 AI 算力储备最多，然后依次是字节、百度、腾讯？语言大模型 M6 下半年可能会有 GPT2.5 的水平，光模块架构不太会走英伟达路线。虽然文心一言 “不那么智能”，但阿里仍看好其先发优势！

本文来源：雪球

本文记录 2023 年 4 月阿里 AI 大模型会议纪要，数据仅供参考，不保证真实性

问：阿里大模型的发布节奏，以及大致水平？

答：阿里巴巴达摩院主要来牵头去做大模型的相关的研究和进展，大概是在 2022 年的时候，我们其实就已经发布了我们自己的这种自然语言理解的大模型，一个叫 m6，一个叫 plug。M6 的话基本是能够支持多模态的这种 AI 模型，比如说文字生成图片、文字生成语音、文字生成视频这种模型，但是我们大模型相比来讲，GPT3.5 这种水平在参数量和整体规模上其实还是要小一点。所以在大模型目前我们这种模型可能也就叫做中模型。

达摩院顶层的领导下达了命令，整个团队约有 100 个人去开始去做相关大模型的迭代和升级，一方面是自己在复现 GPT 的水平，一方面是要迭代把我们的 m6 和 plug 迭代到能够对标到 GPT 的水平。目前来看根据我们得到的一些反馈，我们自己的这种 m6 的一些自然语言理解的能力，目前还不能对标到 GPT3.5，与 GPT3.5 大约还得有个一年半左右差距。

所以在我们预计今年在下半年云栖大会上的时候，应该会有 m6 的一些最新模型的发布或者是进展，可能大概在 GPT2.5 左右的水平。

语料积累不足。现有的大型语言模型在文本清洗和筛选方面存在一些限制，因此需要对现有模型进行升级和迭代，以适应不同领域的数据需求。例如，要将模型应用于军事、旅游文化、政治等领域，需要进行更多的数据收集和人工标注，以达到更高的准确性和效率。同时，大型语言模型的成熟也将带来更多的商业机会，例如在天猫淘宝、高德地图等应用中的搜索和客服机器人等领域。此外，如果大型语言模型足够成熟，可能会释放出 API，由合作伙伴接入，从而实现生态层面的垄断。

问：预计阿里大模型与文心一言对比？同时您认为制约我们大模型发展的是最主要是这个语料，还是模型一开始的这种路径偏离，您认为哪一个是制约我们发展的一个最重要的原因？

答：我们认为百度做得虽然不是那么智能，但还是相当不错的。在国内，它可能算是第一名。我们认为它还有很大的提升空间。文心一言虽然有一定的实用性，但离达到 GPT-3 水平还有一定差距。不过，我们觉得它至少可以达到 GPT-2.5 水平，如果未来能够持续迭代和优化，可能会达到 GPT-3.5 的水平。

数据积累对于百度来说是一个优势，尤其是在搜索领域。百度在知识库方面有很多年的积累，包括百度知道等。与文心一言不同，其模型架构基于 Transformer，而文心一言则基于 Bert。如何在文心一言的基础上实现更智能的迭代，可能是一个挑战，需要达摩院的同学来解决。

问：阿里如何后发追上？会采取怎样的打法？

答：我们可以提供的方案主要有两种，一种是我们推出的模型效果相对较好，可以与集团内部的产品结合，例如天猫、淘宝和高德地图的搜索业务。这将为搜索引擎带来更新的商业模式，并取代以前的商业模式。

此外，我们还可以输出我们自己的 API，并向合作伙伴或渠道商收费。这些合作伙伴将使用我们的 API，并体现出他们的客户，这些客户是从 ToC 端产生的。大多数客户都有自己的 APP 和网站，这些客户可以通过他们的 APP 和网站获取流量。

不同的客户可以使用不同的 API，这意味着厂商可以在生态系统中形成垄断。目前，已有一些厂商尝试将我们的 API 集成到他们的产品中，但进展不如预期快。对于我们的 API，它们可能会在特定领域上有所帮助，例如电商、搜索和推荐，并带来更好的商业模式。

问：阿里目前 AI 算力储备情况？

答：阿里国内 AI 算力储备最多，然后依次为：字节、百度、腾讯。

阿里云现在云上至少应该有上万片的 A100 了，整体至少能够达到 10 万片，集团的话应该会是阿里云 5 倍的这样的一个量级。

达摩院、天猫、淘宝的算力资源都是集团内资源使用。

阿里云这块今年增速会有 30-50%。有个别 8-9 个客户会有复现 GPT 的需求，提出了大规模 AI 算力需求，我们以云的方式给。

百度年初紧急下单 3000 台 8 卡的 A800 服务器，2.4 万张卡，我预计全年百度会有 A-H800 共 5 万张的需求。

阿里云需求不会这么多，去年采购 2 万多，今年可能采购量会下降。预计云上就 1 万张左右，其中 6000 张是 H800。此外阿里云也会用到平头哥这种自研的，每年大概 3000 张去采购。

从除此之外，阿里云也会选择国产芯片的一家，看是否在云上商业化。

问：阿里云采购的哪家国产芯片，为何选择？

答：选择的是寒武纪 MLU370，主要是性能基本过关（A100 的 60-70%），检测合格，态度积极，愿意对接，服务贴身。今年会采购大概 2000 张的水平，主要用在一些 CV 等小模型的训练或推理上。寒武纪 MLU 370 没有供货的风险，后续的 MLU590 也许就会有了。

对于壁仞等，宣传上不错，但拿不到实测的卡，流片大约都是今年 4-6 月，量产半年后。而且壁仞 4 月要流片的卡，不能支持 FP64，互通带宽不支持 8 卡，支持最多 4 卡，采用 NV bridge 方式，达到 180GB 水平。8 卡用 PCIe 方式只能做到 32GB，弱点显著。

针对海光，我们技术人员也有看好的，参数也足够支撑训练，但可能由于海光因产能等因素，可能更侧重满足国有算力那边的需求。同时，集团层面是否对接，不清楚。

问：海光为何会不给样片测试？出于什么考虑？海光 DCU 的量应该是够的。

答：海光的话，我们确实没有拿到他的样卡，就是不知道为什么，我们也得知很多国产化的订单他们都中标且供货，但我们跟他对接的时候，好像反正是各种各样的问题，就是没有测起来。

我们内部其实也有一些同学是支持海光深算 1 号的，但是一方面当时寒武纪还没被拉入黑名单，而海光被拉入了黑名单，然后我们其实也有一定的担心，就是在阿里云上了之后，可能会给自己引火烧身，所以这方面也是我们考量的一个因素。最后反正就没采海光后期的供货，可能也会成问题，这也是我们考量的原因之一。

不知道他们是手头是不是比较重要的这种国产化的项目，或者订单的交付还是没有人力来支持。我们也不是特别知道，可能他们团队也就几百个人吧，就是没有这个时间周期。

总体上，在其他国产 AI 芯片竞争上，海光好像不是很在意这个云上的这个市场。

问：腾讯大模型的进展？

答：有听到是混元这个模型继续迭代，有大概 100 人左右做 GPT 复现以及自我模型迭代。应该会比我们的早，猜测大概 8 月份会出。但应该只是支持文生文的场景。

问：目前降低算力成本的方式？

答：除了大模型，即使 stable diffusion 这种文生图模型，也消耗较小。stable diffusion 模型一直在优化，以前一个推理任务一张 A100、现在降级到一个推理任务一张 V100。对于阿里这种巨头而言，V100 的存货还是很多的。

同时，还会有一些针对模型的优化，或者加速软件，加快模型训练与推理。

最后，也可以对模型进行降级，降低精准度要求，比如从 FP16 降级为 FP8,。

问：阿里目前对于 AI 大模型是不计成本的大力投入，还是考虑商业落地稳扎稳打？

答：大概率是稳扎稳打，现在拆分后，都要自负盈亏，压力蛮大的。

ChatGPT 的一个推理的任务，大概所需要消耗的这个能力是 5 张 A100 在 2 秒钟之内做一次推理，大规模应用起来成本很高，冲击也很大。

问：华为盘古与昇腾如何看？

答：盘古大模型效果有待考证，并没有明确对标 GPT，而是往 B 端去做。

同时因为受限制，只能用自己的昇腾，虽然昇腾 910 大概也有 A100 的 70% 水平（比寒武纪好），但算力的限制可能会制约大模型发展。

问：从 CUDA 兼容性角度，海光与寒武纪如何对比？

答：海光的 CUDA 兼容性更好，除了海光，其实阿里云产的 PPU 其实也在一定程度上能够做到 CUDA 兼容，与 NV 做绑定。

问：360 的大模型如何看？

答：我们了解到，最近 360 向 NV 下了上千块 A800 的货。360 语料可能比我们强，但最后能做出什么效果，需要时间验证。

问：目前跑在大模型上面的光模块架构会向英伟达推荐的方向去迭代吗？

答：我们不太会去走英伟达的架构，我们有自己的路线，其他大厂可能会走英伟达路线。

阿里云的公有云的层级上面，目前都是采用了阿里云自研的产品叫做 DPU。我们自研的 DPU 其实现在已经迭代了几乎 3.0 或 4.0 的状态，支持双口 100GB 的水平。

那 DPU 的功能是用于在云上开发弹性裸金属，因为我们要把服务器做成云上的云服务器中间是有一层虚拟化的开发，那虚拟化之后这个物理机上的资源其实是有一定的损耗，CPU 的核心数、内存的容量以及网络的带宽、硬盘的这个存储容量都会有所影响。那之所以搞 DPU，是为了把这些虚拟化的资源都 ofload 到 DPU 上去，使得我们云上的这种云服务器的资源和线下的这种物理机的资源是整体的资源数量是一模一样的，是没有任何变化的。

那 DPU 的主要功能是在这里，那我们现在研发的第四代的这个 DPU，它里面主要集成了 ERDMA 的这个能力，这个 RDMA 就是远程内存直接访问的意思，然后其实是主要应用在 HPC 的这个场景，然后这个 E 代表的是 elastic，我们叫做弹性 RDMA 这个东西，那它其实是在以太网的架构下去跑 ERDMA。也就是说我们希望在以太网的这个网卡、渲染交换机以及这种集群架构上去跑，类似于高性能计算的这种协议，能够把一些高性能计算的场景支持起来。所以我们大概率在公有云的这个场景，不太会去考量像 Nvidia 提供的这种集群架构，这是公有云的这个方式，从云上讲不支持，光模块数量没有明显增长，阿里网络架构不会改，光模块的规格也不太会改。

但百度云字节火山云可能会采纳英伟达的架构，取决于数量，目前只采纳 300 台 H800，对应每台服务器 9 张网卡，每个卡一个线，一个线两个光模块，9 张网卡一台服务器是 18 个光模块，300 台是 5400 个光模块，如果集成架构往上扩，扩 1000 个节点的话，大概是 3 倍的增长。

问：看好 BAT、字节等哪一个大模型？

答：第一还是百度文心，先发优势，其次可能是字节，因为有数据、有算力、有场景。