LB Select
2023.04.11 07:34
portai
I'm PortAI, I can summarize articles.

“中国的 OpenAI” 商汤大模型,究竟哪里超预期?

商汤大模型 7 天不断点、已出现涌现(Emergence),大语言模型不需要把中文翻译成英文做训练再翻译回来,画图功能超过 Midjourney 第四代、接近第五代,视觉大模型水平已是全球第一?!

看完阿里 “通义千问”,再来回顾 “日日新”!

昨日,商汤科技公布的 “日日新” 大模型获惊艳评价,网友纷纷表示 “吊打文心一言”、“这才是中国的 OpenAI”。

那么在相对专业的机构人士看来,“日日新” 为何大超预期?商汤给市场带来的真正惊喜又在何处呢?

华安证券指出,“日日新” 发布环节亮点有二:

1)自然语言大模型——Sense Chat(商量)现场演示:a)基本的语言交互;b)写故事;c)专业领域的文本分析(法律);d)编程代码(VS code);e)医疗场景(问诊)。

超预期点:上述场景演示,特别是法律、编写代码、医疗问诊的专业场景,在此前的国内大模型演示中,均没有体现。

2)AI 系列应用:画、视频;现场演示:a)秒画,20 张左右的图片可以做成一个小模型,自己的定制化图画;b)如影:数字人视频生成平台;c)琼宇:建模;d)格物:3D 内容生成;

超预期点:商汤的优势仍然在图像领域。秒画甚至演示了现场学习,现场作画。在兼顾效果的同时,应用也很好的与下游行业进行结合,入建筑、电商、直播等。此前大模型演示,虽有图像演示,但没有延伸至应用场景。

值得注意的是,根据机构此前对商汤的调研纪要,“日日新” 之前其实就已训练好了,之所以没有披露是因为处于静默期,这也就意味着后续的交流会有望增加。

在商汤自己眼中,“日日新” 究竟达到了什么水平?技术力有多领先?

以下是调研纪要对某机构 4 月 3 日商汤调研的整理与总结:

1、大模型:4 月 10 日发布,画图功能超过 Midjourney V4 接近 V5

之前没有披露大模型是因为处于香港的静默期(意味着后续的交流会增加),4 月 10 号,商汤会发布自己的大模型(之前就已经训练好了,因为静默期一直不能披露),努力追赶 GPT4,

对于垂直用户,必须有一个通用型大模型作为基础训练的垂直大模型效果才会好。垂直应用面临巨大洗牌,但是洗牌的基础是你得有一个底层好的大模型。商汤希望成为这样的持续迭代的底层大模型。

GPT4 是 8 个月之前训练好的(在微软投资之前),只用了 1 万张 V100,400 号人。GPT4 是目前世界上唯一一个模型,可以去打败 90% 大学生的比例,而且是通修的大学生,其他模型连高中都考不上。国内这方面落后了,很多岗位的就业最基础要求是大学生。但是手里有 1 万张 GPU 很快就能考上大学了。

商汤是最早把人工智能大模型写入招股说明书的公司,2020 年就有相关的研究。但是大部分人不知道怎么实现大模型,目前行业知道了,只需要基于大量数据去训练,可以产生涌现,这是一个重大发现。目前商汤的模型也出现了涌现(涌现不局限在语言,图片等领域也一致)。

商汤的大语言模型,不需要把中文翻译成英文做训练,再翻译回来。是原生的训练。作图能力超过到 midjourney 第四代版本的能力,接近第五代的能力。

将发布虚拟人生产数字平台,能够直播卖货、生成视频等等,中标四大行的数字平台。

参数量不是号称越多越好,需要解决很多问题,很多参数都是凑的。怎么样达到比较好的效果。训练 100 次,千亿参数量就行。训 100 次你才能够把这里面所有的这些需要解决的问题,工程上的一些点,优化上的一些点,所有的一些这个技术的这个边边角角的一些细节都能做好 100 次。

流量重新分配,大家要知道这件事情可能每 10 年才会发生一次流量重新分配。第一次。第一次就是互联网出来泡沫之后。第二次就是移动互联网头条出来,今年开始第三次流量分配,你的互联网 APP 如果有很强的 BGM 能力,那用户就会用它用得越来越多,没有任何人在当下是可以高枕无忧的,巨头都不能,谷歌都不能。

2、大装置:国内主要大模型训练的来源

商汤科技历史融资 60 亿美金,30 亿投入了 “大装置”(人工智能训练平台),训练出来的视觉大模型是全球第一的。公司是真正的 AIDC,目前大装置一期有 5000 个机柜,90% 在使用,二期建完共有 1 万个机柜,总算力超过 10X false,10000 P 的一个算力。

商汤 A100 充足,在停售前拥有 1 万张 A100 芯片。训练一个百亿参数量的视觉模型,对于算力的消耗是等同于训练一个千亿参数量的语言模型。

为什么商汤对外开放 “大装置”,训练模型需求是波动的,只训练自己的模型,成本和风险会非常高,后面还有 4、5、6 代模型要训练,投入越来越大,绑定更多的合作伙伴,成为平台本身——“众筹” 算力,获得长期长跑的能力。

临港大装置有 2.7 万张显卡,已经用了海光和寒武纪,并做了国产适配,商汤是寒武纪的第一大客户。坦白讲就是这一波的大模型训练,确实是目前只有 A100 和 A800 能够真的跑得起来。目前国产 GPU 只能做小规模和中规模的训练和推理。

商汤训练大模型已经 5 年了,调动上千张 GPU 卡,需要非常难的架构,商汤在这方面技术非常领先。目前可以做到 7 天不断点,OpenAI 两三天就会断点一次,因此商汤准备输出训练能力。

A 股的上市公司,大部分没有 GPU,或者买不到 A100 和 A800,算力来源基本上是商汤。拥有 5 年的单任务并行运算 1000 张卡的经验(还能对外输出,国内独家),能够用 4000 张 A100 卡跑出 1 万张的 A100 等效算力。目前有八个大客户在训练,还有 n 多家客户找过来要训练。

大装置不仅是一个资金的一个投入的问题,卖给客户的是时间,可以让需要训大模型的客户在一个月之内数据搬上来,一个月之内把你的千亿参数的模型去年跑通,然后再过一个月你就可以出结果。