“中国的 OpenAI” 商汤大模型，究竟哪里超预期？

商汤大模型 7 天不断点、已出现涌现（Emergence），大语言模型不需要把中文翻译成英文做训练再翻译回来，画图功能超过 Midjourney 第四代、接近第五代，视觉大模型水平已是全球第一？！

看完阿里 “通义千问”，再来回顾 “日日新”！

昨日，商汤科技公布的 “日日新” 大模型获惊艳评价，网友纷纷表示 “吊打文心一言”、“这才是中国的 OpenAI”。

那么在相对专业的机构人士看来，“日日新” 为何大超预期？商汤给市场带来的真正惊喜又在何处呢？

华安证券指出，“日日新” 发布环节亮点有二：

1）自然语言大模型——Sense Chat（商量）现场演示：a）基本的语言交互；b）写故事；c）专业领域的文本分析（法律）；d）编程代码（VS code）；e）医疗场景（问诊）。

超预期点：上述场景演示，特别是法律、编写代码、医疗问诊的专业场景，在此前的国内大模型演示中，均没有体现。

2）AI 系列应用：画、视频；现场演示：a）秒画，20 张左右的图片可以做成一个小模型，自己的定制化图画；b）如影：数字人视频生成平台；c）琼宇：建模；d）格物：3D 内容生成；

超预期点：商汤的优势仍然在图像领域。秒画甚至演示了现场学习，现场作画。在兼顾效果的同时，应用也很好的与下游行业进行结合，入建筑、电商、直播等。此前大模型演示，虽有图像演示，但没有延伸至应用场景。

值得注意的是，根据机构此前对商汤的调研纪要，“日日新” 之前其实就已训练好了，之所以没有披露是因为处于静默期，这也就意味着后续的交流会有望增加。

在商汤自己眼中，“日日新” 究竟达到了什么水平？技术力有多领先？

以下是调研纪要对某机构 4 月 3 日商汤调研的整理与总结：

1、大模型：4 月 10 日发布，画图功能超过 Midjourney V4 接近 V5

之前没有披露大模型是因为处于香港的静默期（意味着后续的交流会增加），4 月 10 号，商汤会发布自己的大模型（之前就已经训练好了，因为静默期一直不能披露），努力追赶 GPT4，

对于垂直用户，必须有一个通用型大模型作为基础训练的垂直大模型效果才会好。垂直应用面临巨大洗牌，但是洗牌的基础是你得有一个底层好的大模型。商汤希望成为这样的持续迭代的底层大模型。

GPT4 是 8 个月之前训练好的（在微软投资之前），只用了 1 万张 V100，400 号人。GPT4 是目前世界上唯一一个模型，可以去打败 90% 大学生的比例，而且是通修的大学生，其他模型连高中都考不上。国内这方面落后了，很多岗位的就业最基础要求是大学生。但是手里有 1 万张 GPU 很快就能考上大学了。

商汤是最早把人工智能大模型写入招股说明书的公司，2020 年就有相关的研究。但是大部分人不知道怎么实现大模型，目前行业知道了，只需要基于大量数据去训练，可以产生涌现，这是一个重大发现。目前商汤的模型也出现了涌现（涌现不局限在语言，图片等领域也一致）。

商汤的大语言模型，不需要把中文翻译成英文做训练，再翻译回来。是原生的训练。作图能力超过到 midjourney 第四代版本的能力，接近第五代的能力。

将发布虚拟人生产数字平台，能够直播卖货、生成视频等等，中标四大行的数字平台。

参数量不是号称越多越好，需要解决很多问题，很多参数都是凑的。怎么样达到比较好的效果。训练 100 次，千亿参数量就行。训 100 次你才能够把这里面所有的这些需要解决的问题，工程上的一些点，优化上的一些点，所有的一些这个技术的这个边边角角的一些细节都能做好 100 次。

流量重新分配，大家要知道这件事情可能每 10 年才会发生一次流量重新分配。第一次。第一次就是互联网出来泡沫之后。第二次就是移动互联网头条出来，今年开始第三次流量分配，你的互联网 APP 如果有很强的 BGM 能力，那用户就会用它用得越来越多，没有任何人在当下是可以高枕无忧的，巨头都不能，谷歌都不能。

2、大装置：国内主要大模型训练的来源

商汤科技历史融资 60 亿美金，30 亿投入了 “大装置”（人工智能训练平台），训练出来的视觉大模型是全球第一的。公司是真正的 AIDC，目前大装置一期有 5000 个机柜，90% 在使用，二期建完共有 1 万个机柜，总算力超过 10X false，10000 P 的一个算力。

商汤 A100 充足，在停售前拥有 1 万张 A100 芯片。训练一个百亿参数量的视觉模型，对于算力的消耗是等同于训练一个千亿参数量的语言模型。

为什么商汤对外开放 “大装置”，训练模型需求是波动的，只训练自己的模型，成本和风险会非常高，后面还有 4、5、6 代模型要训练，投入越来越大，绑定更多的合作伙伴，成为平台本身——“众筹” 算力，获得长期长跑的能力。

临港大装置有 2.7 万张显卡，已经用了海光和寒武纪，并做了国产适配，商汤是寒武纪的第一大客户。坦白讲就是这一波的大模型训练，确实是目前只有 A100 和 A800 能够真的跑得起来。目前国产 GPU 只能做小规模和中规模的训练和推理。

商汤训练大模型已经 5 年了，调动上千张 GPU 卡，需要非常难的架构，商汤在这方面技术非常领先。目前可以做到 7 天不断点，OpenAI 两三天就会断点一次，因此商汤准备输出训练能力。

A 股的上市公司，大部分没有 GPU，或者买不到 A100 和 A800，算力来源基本上是商汤。拥有 5 年的单任务并行运算 1000 张卡的经验（还能对外输出，国内独家），能够用 4000 张 A100 卡跑出 1 万张的 A100 等效算力。目前有八个大客户在训练，还有 n 多家客户找过来要训练。

大装置不仅是一个资金的一个投入的问题，卖给客户的是时间，可以让需要训大模型的客户在一个月之内数据搬上来，一个月之内把你的千亿参数的模型去年跑通，然后再过一个月你就可以出结果。