不止硬件,ChatGPT 也将带飞一大批软件
ChatGPT 近期在全球范围内掀起又一轮 AI 热潮。在诸多应用场景之中,中金尤为关注创成式 AI 对工具软件的赋能,本篇报告分别从短期、长期角度讨论创成式 AI 可能对工具软件底层商业逻辑和产业生态带来的变化。
摘要
ChatGPT 向 AGI 更近一步,通用人工智能赋能应用软件成为可能,其中与工具软件结合想象空间宽广。对应用软件厂商而言,接入 AI 大模型短期成本低,长期想象空间大,因此我们观察到绝大多数应用软件厂商均积极接入大模型能力。目前,以 ChatGPT 为代表的 AI 大模型能力主要在于人机交互对话 AI 以及创成式 AI,其与应用软件的结合主要涵盖 AI+ 工具类软件、AI+ 搜索引擎、AI+ 服务类应用、AI+ 垂直行业应用等方向。我们认为其中创成式 AI 与工具类软件具有天然契合性,下游应用场景、想象空间广阔。
短期维度:融合创成式 AI 提升生产效率,成为工具软件竞争的新焦点。目前创成式 AI 主要以嵌入现有工具软件的方式帮助用户提升生产效率,在文字(如 Notion AI)、图片(如 Stable Diffusion、Midjourney)、视频(如 Make-A-Video)、3D 模型创作、音频等领域已有众多厂商参与探索实践。我们认为,产品价值角度,AI 融合应用的功能或将成为工具软件的增量付费点;竞争角度,原生于 AI 的新兴厂商、传统厂商对 AI 应用融合的跟进速度都将使现有格局产生变化。但随着创成式 AI 应用的普及,未来 AI 融合工具软件可能成为 “标配”,届时 AI 融合场景的应用深度将成为竞争新焦点。
长期维度:创成式 AI 或将重塑商业逻辑,实现生产工具向生产力的跃迁。理想情况下,我们认为,未来真正的 AGI 将能够不依赖于人类用户的命令与引导进行创作,AI 赋能下的工具软件有可能完成从生产工具提供方向生产力提供方的转变,届时底层 AI 能力提供方与工具软件厂商将共同参与生产价值的分配。为了更好地理解长期视角下 AI 对于商业逻辑的重塑,我们将 AGI 从产业结构、商业逻辑、竞争格局和价值分享角度与云计算进行对比分析,我们认为正如目前 “上云” 已成为应用软件的 “必修课”,未来 “AI+” 也可能成为应用软件标配,并带来新一轮价值释放。
AGI 大模型渐入佳境,创成式 AI 深度赋能工具软件
ChatGPT 向 AGI 更近一步,通用人工智能赋能应用软件成为可能
ChatGPT 掀起全球 AI 热潮,通往 AGI 的道路亦或将近。ChatGPT(Chat Generative Pre-Trained Transformer)是由 OpenAI 开发的人工智能聊天机器人程序,其基于 GPT-3.5 大模型,能够完成相对复杂的语言处理任务,包括人机对话、自动文本生成、自动摘要、编写代码等,在 2022 年 11 月推出,上线两个月后用户数量即达到 1 亿规模,在全球范围内掀起又一轮 AI 热潮。ChatGPT 的火爆让业界意识到 AI 行业在通往 AGI(通用人工智能)的路途上更近一步,进而也引发了世界范围内对 AGI 未来会如何重塑各行各业的讨论与畅想。
全球范围内各类应用软件厂商积极拥抱以 OpenAI 为代表的人工智能新生态。在 ChatGPT 推出之后,微软计划对 OpenAI 追加 100 亿美元投资并在旗下搜索、办公软件中探索融合应用场景。由于 ChatGPT 显现出的巨大应用潜力与可能性,全球广大应用厂商也均开始积极尝试接入 OpenAI 的技术接口,以期 AI 与其现有产品能够产生新的化学反应。国内市场亦快速跟进,百度宣布旗下对标产品文心一言将于 3 月完成内测、面向公众开放,目前国内已有上百家企业宣布接入文心一言,其中不乏汉得信息、金蝶、宇信等企业服务软件厂商。同时,我们预计国内外将持续出现更多的大模型,吸引更多的应用软件厂商丰富、壮大 AI 生态。
对于应用软件厂商而言,接入 AI 大模型短期成本投入较低,长期想象空间较大。由于目前 ChatGPT 等大模型均在发布初期,商业模式探索亦刚刚起步,现阶段重点在于生态构建而非商业变现,因此无论是 OpenAI、百度还是其他大模型厂商,短期对于应用软件厂商的接口调用均保持开放态度。这意味着,对于应用软件厂商而言,其短时间内接入 AI 的成本不高,而 AI 对其产品形态以及商业逻辑长期能够带来的积极变化却颇具想象力,因此我们观察到绝大多数的应用软件厂商均积极接入大模型能力,相关应用软件数量正呈现指数级扩张的态势。
目前以 ChatGPT 为代表的 AI 大模型能力主要在于人机交互 AI 能力以及创成式 AI 能力等,而其与应用软件的结合主要涵盖以下几个方向:
► AI+ 工具类软件:辅助文字、图片、视频生产。AI 与创作工具类软件的融合应用主要发挥的是 ChatGPT 等 LLM 大模型的创成式 AI 能力,其能够基于用户输入的指令和引导完成文字生成、图片生成、视频生成等辅助创作类任务。目前典型的应用代表包括文字类的 Notion AI、Office(微软计划将 ChatGPT 接入);图片类的 Stable Diffusion(Stability AI 旗下)、Midjourney、DALL-E(OpenAI 旗下)、Imagen(谷歌旗下)和视频类的 Designs.ai、Make-A-Video(Meta 旗下)、Lumen5 等。
► AI+ 搜索引擎:借助自然语言处理将传统的搜索点击转变为互动问答形式,并生成个性化结果。AI 与搜索引擎的结合发挥的主要是基于自然语言处理的人机交互对话能力,以问答的形式帮助用户解决问题,即时生成个性化的规划、建议、分析等。典型代表包括接入 ChatGPT 能力后增加互动聊天和辅助写作功能的微软 NewBing 搜索引擎。
► AI+ 服务类应用:发挥人机交互能力改善自助式服务体验。AI 与服务类应用的结合主要以自助问答聊天机器人的形式落地,发挥 LLM 大模型的人机交互能力。典型代表包括电商、游戏、地图等各类服务应用场景中的智能问答、帮助机器人。
► AI+ 垂直行业应用:与现有垂类行业应用结合,本质上亦归属于上述三种形态。典型代表包括宇信、汉得、金蝶、恒生电子等,融合大模型的人机交互、创成能力,实现更高效的信息获取、分析、形成智能解决方案等。我们认为,其本质上亦可以归类为上述三种形态中的某一种,未来需要进一步探索如何与垂直场景进行更好的结合,针对行业性语料进行更深度的训练以发挥更好的效果。
图表:AI 大模型与应用软件的主要融合方向
资料来源:各公司官网,中金公司研究部
应用软件厂商在 AI 领域的投入将更专注于 AI 应用场景的探索以及与现有应用的融合。从整个 AI 产业链的分工来看,我们认为未来大模型厂商将会承担绝大部分的底层算法开发优化工作,而应用软件厂商则会更专注在应用场景的发掘、深耕,以及与现有 AI 大模型更深度的融合应用。对于通用人工智能未来能否实现产业化,我们认为先进的底层大模型以及与之相匹配的上层应用均缺一不可,AI 厂商与应用软件厂商未来将会有更加紧密合理的分工合作。
在上述的应用方向与场景中,我们更为关注创成式 AI 与工具软件结合的可能性。以 ChatGPT 为代表的大模型应用中,创成式 AI 是较为突出的能力,且与现有的工具类软件(文字创作工具、图片创作工具、3D 模型创作工具等)具有天然的契合性,下游应用场景广阔、颇具想象空间。因此在本篇报告中,我们将主要聚焦于创成式 AI 对工具软件的赋能,以及其长期重塑工具软件底层商业逻辑和产业生态的可能性。
创成式 AI 赋能工具软件将为其创造哪些可能性?从短期维度来看,目前创成式 AI 主要以嵌入到现有工具软件中的方式,作为创新性的辅助功能来帮助用户提升生产效率,厂商可以将其作为增值服务来额外收费;但从长期来看,如果未来创成式 AI 能够实现不依赖于用户引导的主动式创作,则其有望实现从生产工具向生产力的蜕变,真正意义上替代部分 “创作人员” 的工作。因此我们对于创成式 AI 的态度是,短期保守,长期不低估。
图表:全球范围目前已经或计划接入 OpenAI、文心一言等语言类大模型的应用一览
资料来源:同花顺财经,IT 之家,新民晚报,新浪财经,中金公司研究部
短期维度:融合创成式 AI 提升生产效率,成为工具软件竞争的新焦点
目前创成式 AI 主要以嵌入现有工具软件的方式帮助用户提升生产效率。工具软件融合创成式 AI 后,能够在用户指定的框架、指令与引导下进行辅助式创作,进而帮助用户减少重复性、机械性、规则导向的劳作,甚至进而承担具有一定创造性的工作,比如基于指引在现有语料库基础之上收集归纳形成文字创作、基于文字描述生成图片与视频、在 3D 模型创作中辅助实现参数优化等。目前在文字、2D 图片、3D 模型、音频、视频等多个模态领域已有众多厂商选择参与探索实践:
► 创成式 AI 与文字创作:海外厂商如 Notion 内置了 AI 写作助手可以根据用户描述自动生成不同应用场景下的文本内容,微软亦计划在 Office 中接入 ChatGPT 能力;国内厂商如金山办公旗下 WPS 可以实现文档校对、全文翻译和辅助写作等功能。除了 C 端应用之外,亦有厂商开发了专门面向企业的 AI 辅助文字创作产品,典型代表为第四范式旗下的式说,能够将 GPT 这类大型生成式语言模型与企业内部垂直领域知识融合、同时保障私有化部署,以满足企业级应用对垂直行业知识、数据安全、内容可信等的要求。
► 创成式 AI 与图片创作:海外已有较多公司推出基于文字生成图像的产品,流行度较高的包括 OpenAI 旗下 DALL E 2、Stability AI 旗下 Stable Diffusion、Midjourney 等,其操作流程大多类似,输入关键词即可生成多幅 AI 绘画内容,并支持进一步修改和添加细节,各厂商在生成图片风格上各异,DALL-E2 偏写实、Midjourney 偏科幻、Stable Diffusion 无风格偏向可根据细节指令多次尝试调整。国内亦有厂商跟进如昆仑万维旗下的天工巧绘和万兴科技旗下的万兴爱画等。
► 创成式 AI 与音频创作:海外厂商如谷歌在去年 10 月发布了 AudioLM,可以根据输入的音频片段生成相似风格的音频,今年 1 月又推出 MusicLM,可直接根据文字、图像生成音乐;微软也于今年 1 月发布了 VALL-E,只需 3 秒音频即可模仿人说话,且可以复制说话者的情绪和语气;此外还有 Stability AI 旗下的 Dance Diffusion、Open AI 旗下 Jukebox。国内亦有厂商跟进,包括讯飞配音、百度语音合成和腾讯智影等。
► 创成式 AI 与视频创作:海外厂商如 Meta 旗下的 Make-A-Video 支持根据文字描述生成视频;谷歌旗下 Imagen Video 和 Phenaki 分别支持不同画质和长短要求的视频创作,2 月初其再次发布视频编辑新方法 Dreamix,能够实现对已有视频的编辑和通过提供图片与描述生成视频;此外还有 Runway 推出的 AI 视频生成模型 GEN-1。国内厂商亦有所尝试,如万兴旗下的万兴播爆支持根据关键词生成数字人宣传视频、百度孵化的 VidPress 支持导入图文后自动实现配音、字幕、画面的视频内容生产,此外还有当虹科技的画质增量类 AI 产品和商汤智影推出的辅助智能脚本创作产品。
► 创成式 AI 与 3D 模型创作:Creo、Autodesk Fusion360、Solid Edge、Solidworks 等 3D CAD 产品目前已广泛集成 AI Inside 应用能力,主要用于辅助实现参数优化和草图生成;在 EDA 领域,Synopsys、Cadence 等海外 EDA 厂商在 AI 赋能芯片设计上均有所探索,通过已有的设计数据训练模型,实现更高的设计效率。
工具软件与 AI 的融合能够优化用户体验与生产效率,提升产品竞争力。无论从带给用户 “新奇感” 还是从提升用户生产效率的角度,接入 AI 对于工具软件而言都是提升产品吸引力与竞争力的较优选择。同时由于短期接入大模型的试错成本较低,我们判断广大的工具软件厂商对于相关能力的接入都会抱有开放的态度,产业生态有望快速壮大。
但客观来看,目前的创成式 AI 仍具有多方面不足,主要作为辅助生产工具的形式出现。由于目前以 ChatGPT 为代表的创成式 AI 仍存在缺乏特定行业语料训练、语料库滞后、无法保证逻辑推理正确性等多种不足,因此短期仅作为辅助生产工具的形式出现,并不具备完全主动进行生产创作的能力。并且在使用的过程中,用户也需要额外注意可能存在的版权纠纷、敏感信息、偏见歧视等方面的问题。我们认为,创成式 AI 与应用软件融合仍处于起步阶段、提升空间广阔。
AI 赋能工具软件后,短期会对行业生态及商业格局带来哪些影响?
产品价值角度,AI 融合应用的功能或将成为工具软件的增量付费点。短期来看,工具软件厂商能够将与 AI 的融合应用作为差异化功能点和增值服务,向用户进行增量收费,进而打开产品付费天花板。比如微软发布的 Teams Premium,需以每月 10 美元的价格订阅享用基于 GPT-3.5 的自动生成会议笔记等功能;同为微软旗下的辅助代码生成和修改应用 Copilot 亦需额外付费;Notion 目前 AI 增强功能 alpha 测试版本免费,但官方表示未来正式版本将大概率收费。
图表:AI 增强功能或将成为工具软件的增量付费点,进一步打开产品收入天花板
资料来源:公司官网,中金公司研究部
竞争角度,原生于 AI 的新兴厂商、传统厂商对 AI 应用融合的跟进速度都将使现有格局产生变化。我们将 AGI 看作一个新的技术革命,可能对传统产业格局带来冲击。类比云计算时代,Salesforce 等新兴 SaaS 厂商把握 “上云” 新趋势,异军突起 “超车” SAP 等老牌软件厂商;而 Oracle、微软等传统厂商的云转型成效也直接影响其市场影响力演变趋势。事实上,目前已有一批 AIGC 相关独角兽正快速发展,在未来的 AI 融合应用时代,我们认为原生于 AI 的新兴厂商的出现及传统厂商 AI 转型效果都可能给现有的竞争格局带来改变。
图表:AIGC 相关独角兽正快速发展,或使现有格局发生变化
资料来源:鲸准,中金公司研究部
但随着创成式 AI 应用的普及,未来 AI 融合工具软件可能成为 “标配”。由于工具软件厂商不需要在 AI 大模型开发上投入成本,而只需专注于 AI 融合应用的实践与适配,前期成本并不高,因此我们判断如果早期参与的工具软件厂商通过融合 AI 实现了商业成功,产业中的其他参与者将会快速跟进,AI 融合工具软件或将成为 “标配”。在这种情况下,我们认为,工具软件厂商可能将无法继续对 AI 增强功能进行单独收费,而厂商之间竞争的差异点也会从 “有无 AI 增强” 变为 “能否用好 AI”。
未来 AI 融合场景的应用深度将成为工具软件厂商竞争的新焦点。当 AI 融合应用成为工具软件厂商的 “标配” 后,厂商之间竞争的焦点将落在如何发掘更适合 AI 的应用场景、最大限度发挥创成式 AI 的效能上。在同样都能够接入 AI 通用大模型能力的前提下,我们认为未来能够将 AI 与现有应用场景更好融合、更大程度发挥 AI 价值的厂商有望在新一轮的竞争中胜出,一些领域现有固化的竞争格局也可能会受到冲击甚至的颠覆。
长期维度:创成式 AI 或将重塑商业逻辑,实现生产工具向生产力的跃迁
理想中的 AGI 能够将生产工具升级为生产力,重塑工具软件底层商业逻辑。长期来看,AGI(通用人工智能)融合工具软件应用具有较大的想象空间,产业中不乏将通用人工智能比作新一次 “工业革命” 以及 “科技奇点” 的观点。理想情况下,我们认为,未来真正的 AGI 将能够不依赖于人类用户的命令与引导进行创作,彼时,融合了 AGI 自主创作能力之后的工具软件将不再仅仅是辅助人类用户提效的 “生产工具”,而成为独立的增量 “生产力”。
AI 赋能下的工具软件成为生产力后应直接参与生产价值的分配,生产价值由底层 AI 能力提供方与工具软件厂商共享。我们认为,未来,如果 AI 赋能下的工具软件能够完成生产工具提供方向生产力提供方的转变,其商业逻辑将不再是间接收取提供工具的费用,而应直接参与生产价值的分配,比如一本完全由 AI 赋能的文字创作软件撰写的书籍,底层通用 AI 能力提供方与文字创作工具软件提供方均有权从书籍销售额中获得分成。
图表:创成式 AI 将生产工具升级为生产力,带来商业逻辑质变
资料来源:Business Digest,中金公司研究部
短期看,拥有稀缺 AI 融合场景的下游厂商更为关键;长期看,议价权向掌握底层通用 AI 能力的平台厂商转移。在 AGI 探索的早期阶段,适合的下游应用场景较为稀缺,底层通用 AI 平台厂商希望尽可能多的应用厂商接入,进而获得更丰富的在垂直应用场景训练大模型的机会。但长期来看,由于训练大模型的技术、成本要求较高,随着 AGI 应用逐步深入,我们认为,最终议价权可能会向少数拥有底层通用 AI 能力的平台型厂商转移,其有望在价值分配中获得更高的比例。但暂不论最终价值分配比例孰高孰低,我们认为,在这一过程中,工具软件厂商的商业逻辑都产生了质变——即有可能直接介入到生产价值的分享过程中。
图表:理想中 AGI 带来工具软件价值分配逻辑变化
资料来源:中金公司研究部
如何更好地理解长期视角下 AI 对于商业逻辑的重塑?我们将其与云计算带来的 SaaS 模式对比。我们认为,AI 和云计算同为具有划时代性质的技术变革,云计算创造了 SaaS 这一新型的商业模式并改变了传统企业服务软件的竞争格局,因此,我们将 AGI 从产业结构及商业逻辑等方面与云计算进行对比分析,讨论其可能带来的商业影响。
► 产业结构角度,AI 中的算力、模型、AI 融合应用分别对应云计算中的 IaaS、PaaS、SaaS。我们认为,与云计算的三层产业结构类似,AI 模型的训练需要底层强大的硬件支持,算力层即对应云计算中的 IaaS 层;AI 大模型则与基础软件类似,承担通用需求,同时目前大模型接口也正在尝试按量付费模式,MaaS(Model-as-a-Service)即对应云计算中的 PaaS 层;最上层应用软件调用 AI 大模型,直接面向企业、消费者提供融合 AI 能力后的垂直场景功能,即对应基于底层云计算基础设施和平台能力提供服务的 SaaS 软件。
图表:AI 中的算力、模型、AI 融合应用可以分别对应云计算中的 IaaS、PaaS、SaaS
资料来源:中金公司研究部
► 商业逻辑角度,云计算从销售产品向订阅服务转变,AGI 有望带来生产工具使用付费向生产力直接参与价值分配的改变。云计算使得客户从一次性买断基础软硬件产品向持续性付费以享受云厂商提供的服务转变,订阅制对于供应商来说意味着更优的现金流和收入可持续性、以及更高的客户付费总量。正如我们前文的讨论,若未来 AI 赋能下的工具软件能够完成生产工具提供方向生产力提供方的转变,其商业逻辑将从收取工具使用费用,转向直接参与生产价值的分配,对于供应商来说也意味着更优的收入可持续性和更高的收入天花板。
► 竞争格局角度,新厂商的进入和传统厂商对于新技术的适应程度均使得现有格局产生变化。以数据库基础软件市场格局为例,过去十年的市场格局变化主要受云厂商和云原生独立数据库厂商进入以及传统数据库企业云转型成效优劣的影响。类比来看,我们认为,未来原生于 AI 的新工具类软件厂商进入,以及现有厂商融合 AI 的速度和能力优劣也可能重塑市场竞争格局。
► 价值分享角度,底层基础设施厂商提供通用能力,上层应用厂商聚焦垂直场景。云计算产业链中,IaaS、PaaS 层厂商提供通用软硬件基础设施能力,SaaS 层厂商聚焦于提供垂直功能应用。类比来看,AI 底层平台型厂商提供通用大模型能力,上游工具类软件厂商寻找适合 AI 赋能、变现的落地场景。而在 AI 所需的算力成本方面,我们认为 AI 厂商将会承担训练成本,而后续的推理成本则会由 AI 厂商与应用软件厂商共同承担(类似于云计算的租用云计算资源,未来的 AI 产业会是租用模型和算力)。
图表:长期来看,AI 有望与云计算一样带来工具软件的商业逻辑重塑
资料来源:中金公司研究部
“上云” 已成为应用软件的 “必修课”,我们认为未来 “AI+” 也可能成为应用软件标配。目前支持云部署已经基本成为软件厂商的必备能力项,在 2010 年以后成立的多数软件公司均选择了云原生的技术路线;而传统软件企业亦积极转向云端,并在商业模式上也向订阅制转型。而从应用软件对 AI 的融合应用来看,同理我们认为也 “AI+” 有望成为新一代应用软件的标配,而应用软件厂商也将在与 AI 厂商的探索与磨合中形成新的一套成熟的商业模式。
商业模式重塑之后,云计算促进应用软件的价值重估,未来 AGI 同样可能带来新一轮价值释放。云计算通过软件开发、部署、交付、收费方式变化,催生商业模式与业务逻辑升级,进而引发资本市场对于工具软件乃至整个应用软件行业的价值重估。我们认为,长期来看,未来创成式 AI 赋能工具软件可能带来新一轮的价值释放。但短期来看,由于目前大模型仍存在诸多缺陷,下游应用及增量付费场景仍在探索中,版权、法规上亦有进一步讨论明确的必要,因此我们的上述猜想在未来演进方向上仍存在较多不确定性,需要持续跟踪、观察。
总结来看,AI 融合工具软件想象空间宽广,但实际落地仍有诸多挑战,我们强调短期不夸大、长期不低估的观点。AI 融合工具软件想象空间宽广,但最终落地实现仍需依赖底层算力与大模型算法演进迭代,同时尚有法律、伦理相关问题有待讨论、解决。我们认为,AGI 应用的前途是光明的,但道路是曲折的,我们强调短期不夸大、长期不低估的观点,建议投资者持续关注跟踪最新产业趋势,并对 AI 融合工具软件可能的各大应用场景保持关注。
图表:AIGC 关键技术持续突破,AI 融合工具软件想象空间宽广,我们强调短期不夸大、长期不低估的观点
资料来源:OpenAI 官网,《Denoising Diffusion Probabilistic Models》(Ho 等,2020),中金公司研究部
创成式 AI 赋能工具软件的产业实践与应用趋势
创成式 AI 与文字创作:ChatGPT 有望加速 AI 文字创作落地
创成式 AI 能够在文字创作场景下完成写作、改写、修正、翻译等功能。AI 可以借助互联网广泛的文本数据对文字创作工具进行训练,目前 Transformer 大模型在自然语言场景下的应用能力已经相对成熟,我们认为文字创作有望成为创成式 AI 快速落地的应用场景。我们观察到 Notion、微软等已经开始将 AI 语言模型接入笔记和办公软件;第四范式也推出了面向企业客户的 AIGC 工具,办公软件龙头金山办公在中长期来看也有望实现 AI 赋能,提升文字创作效率。我们认为创成式 AI 在文字创作场景下主要能够实现四大能力:
► 写作:基于海量的语料库,Transformer 神经网络拥有语言理解和文本生成能力,因此可以根据使用者的简单指令生成逻辑连贯、事实丰富的语段;
► 改写:与普通规模的语言模型相比,大型语言模型拥有一定推理能力,能够形成思维链来解决抽象问题,因此可以根据用户要求完成文本改写任务;
► 修正:通过在海量文本数据中对比学习和总结规律,创成式 AI 可以纠正所给文本的拼写、语法、标点等错误,使修改后的文本更加符合常用语言范式;
► 翻译:创成式 AI 可以利用循环神经网络和卷积神经网络拆解结构复杂的语段并联系上下文进行翻译,从而大幅提升翻译的整体性、准确性和可读性。
图表:创成式 AI 在文字创作场景中的四大能力
资料来源:OpenAI,中金公司研究部
案例 1:Notion AI 优化文字创作
Notion AI 能基于简单指令生成丰富的文字内容。Notion AI 是用于 Notion 产品的人工智能工具,通过集成机器学习和 NLP 技术,帮助用户提高文字创作的效率和体验。在 AI 大规模语言模型赋能下,用户只需要罗列出基本需求,产品即可自动生成丰富的文字内容,文字内容的类型覆盖会议议程、销售邮件、新闻发布稿等多种场景。Notion AI 还拥有总结、改错、翻译、续写、头脑风暴等功能;后续 Notion AI 还将会成为 Notion 知识库的接口,用户只需要输入搜索要求,Notion AI 即会自动呈现相关信息。我们预期 Notion AI 的自动文本生成、文本摘要、文本编辑等功能或将大大优化用户的创作流程和使用体验,帮助 Notion 的产品力实现跃升。
案例 2:微软 AI 与 Office 的融合计划
AI 赋能下微软 Office 料将优化产品体验。微软 2019 年以 10 亿美元投资 OpenAI 并与之建立了较为深入的合作关系,近期微软计划将 OpenAI 的下一代语言模型整合进 Office 办公软件中的 Word、PowerPoint、Outlook 等应用程序,用户只需要输入简单指令,即可获得自动产生的文字内容。新版 Office 将拥有自动总结、内容建议以及文本生成功能,可提供类似 Bing-ChatGPT 侧边栏的体验,用户可在侧边栏中与聊天机器人交互。
庞大用户规模和训练数据有望助力 Office AI 应用能力快速迭代。Office 办公软件用户规模优势明显(21 年 PC 版全球装机量 15 亿套),我们认为 OpenAI 的人工智能技术与 Office 软件的融合一方面能让 AI 找到优质的落地场景;另一方面,Office 软件庞大的用户规模有望为 AI 提供源源不断的海量训练数据,从而形成飞轮效应,不断改善 AI 的文字创作体验。
案例 3:模力表格提供内嵌于表格场景的 AI 文字处理应用
模力表格通过 AI 大模型实现表格中文本内容的 “批量化计算”。模力表格由面壁智能公司和大模型开源社区 OpenBMB(主要成员来自清华大学)联合开发,其将 AI 大模型的文字处理能力嵌入到函数中,通过在表格中输入函数即可调用模型,目前支持的函数包括 IE(信息抽取)、QA(问答)、MT(翻译)、SA(情感分析)、TG(标题生成)等,同时支持和 Excel 基础函数集成使用。我们认为通过表格中的 AI 文字处理应用能够实现文本批量化计算,大幅提升办公效率。
图表:模力表格实现表格场景下 AI 文字处理能力
资料来源:OpenBMB 开源社区微信公众号,中金公司研究部
案例 4:第四范式满足企业场景 AIGC 需求
第四范式推出企业级类 GPT 产品 “式说”,助力企业利用内部知识解决问题。第四范式通过将类 GPT 语言模型与垂直领域知识进行融合,推出 “式说” 产品,旨在解决大型生成式语言模型在企业内部使用场景下的局限,满足企业场景下的 AIGC 需求。“式说” 主打三大产品特点:1)数据安全,通过私有化部署解决企业客户对数据安全的顾虑;2)内容可信,“式说” 基于企业内部数据库,并且在提供回答时标注信息原始出处,增加了回答的可信性和可靠性;3)成本可控,“式说” 算力成本相对可控,而且对数据标注量的需求较小。我们认为 “式说” 这类服务于 B 端客户的 AIGC 工具能够助力实现企业知识复用,提高企业生产和管理效率。
图表:第四范式 “式说” 产品工作界面
资料来源:公司官网,中金公司研究部
案例 5:竹间智能借助 AIGC 赋能写作&对话&知识搜索等多场景
竹间智能推出类 ChatGPT 产品,赋能企业级 AIGC 应用。公司成立于 2015 年,为金融、企业、健康医疗、制造、智能终端、政务六大领域提供 AI 赋能解决方案。2022 年 9 月公司推出 AI SaaS 产品,涵盖客户服务、销售服务、企业内部服务等多场景,为中小企业提供云端 AI 工具。在 AIGC 领域公司亦持续深耕,先前已推出 Magic Writer 等多款智能创作写作软件,并于近期推出企业级 Gemini GPT 产品系列,包括企业对话机器人 KKBot、交互式认知搜索引擎 ChatSearch,在销售客服、人机交互、知识探索等方面借助 AI 实现全面赋能。
案例 6:印象笔记借助自研轻量化大模型辅助文字创作
基于自研 “大象 GPT” 模型,推出 “印象 AI” 创成式文字工具。2019 年以来,国内笔记应用厂商印象笔记发力 AI 在笔记文字处理中的 AI 应用场景,陆续推出了智能推荐、智能标签、智能摘要、知识星图等 AI 工具。印象笔记同时持续投入大模型研发,于 2023 年推出了结合 OPT、BLOOM 等类 GPT-3.5 结构大语言模型自主研发构建的大语言模型 “大象 GPT”,并基于此推出 “印象 AI” 创成式文字工具模块内嵌于自身的笔记产品中,实现了国内厂商通过自研模型实现 AI 文字创作的先发应用。未来印象笔记计划利用基于人类反馈的强化学习(RLHF)来优化模型,并计划与私人语料结合赋能具备个人风格文字创作。
案例 7:Minimax 打开 C 端落地新场景
区别于 ChatGPT 的专业知识问答,MiniMax 推出的 Glow 主打聊天社交功能。公司成立于 2021 年年底,已自研文本到视觉、文本到语音、文本到文本三个模态的通用大模型。2022 年 11 月,MiniMax 推出首款 AI 对话机器人平台 Glow,用户可选择已存在的智能体进行对话,或者通过简短描述创造智能体并在后续对话中实现优化调整,智能体的对话生成、人物头像生成、音色生成调用了 MiniMax 三大模态模型的能力。区别于 ChatGPT 聊天机器人倾向于问题搜索、文本生成等功能,由 Glow 生成的智能体拥有不同的背景和性格设定,与用户对话的内容也偏向于闲聊陪伴、情感互动、剧情演绎。我们认为,MiniMax 的聊天机器人与用户交互效果较好、具备较强的用户粘性,打开 C 端落地新场景。
案例 8:金山办公潜在的 AI 应用场景
金山办公在 AI 领域已有扎实布局。国内办公软件龙头金山办公在计算机视觉、自然语言处理、语音处理等 AI 领域也都有广泛的技术与业务布局。公司自 2017 年开始搭建 AI 中台,围绕办公领域已经开发出近 100 项 AI 能力。在自然语言处理方向,金山办公已经开发出辅助写作功能,用户只需提供一个提纲,AI 即可基于语料算法自动生成文本,用户可以将 AI 生成的文本作为底稿,大大提升写作效率。此外,金山办公也已实现 AI 校对、翻译、纠错等功能,并将其作为 WPS 办公软件套件的重要增量功能。
我们判断金山办公会在紧跟 AI 产业趋势的同时,适时切入跟进。我们判断金山办公会把主要发力点瞄准 AI 应用端。公司现有产品 WPS 积累的用户量级大、用户场景多样且复杂度高,我们认为金山办公若能深挖用户场景,将可以在邮件、办公、营销、政务、文学等各个细分场景中提供相应的 AI 文字创作服务,提升用户使用体验,加深产品护城河。未来我们判断公司会在充分考量国内各家 AI 大模型厂商的能力之后,适时尝试接入应用,尽可能地发挥 AI 大模型在办公软件领域的应用潜能。
创成式 AI 与音频生成:跨模态应用进军音频行业
海外案例 1:谷歌不同团队均有音频生成研究成果
谷歌在 2023 年发布了不同的音频生成模型,并且有各自的特点。在此之前也出现过相关 AI 创作音乐的尝试,如可视化音乐创作模型 Riffusion、谷歌发布的 AudioML 和 OpenAI 推出的 Jukebox。而现在的研究成果基于 Diffusion 模型、标注好的音频数据,通过提取数据特征、文本和音频的配对,实现文本生成音频。
► MusicLM:这是一种从文本描述中生成高保真音乐的模型,例如用户可以输入 “平静的小提琴旋律伴随失真的吉他即兴演奏”。MusicLM 将条件音乐生成过程转换为层次化的 Seq-to-Seq 建模任务,并能够保持 24 kHz 的频率生成一段几分钟的音乐,无论是文本描述还是音频质量都优于之前的模型。此外,MusicLM 还能够基于文本的描述转变原来的旋律、根据图片画作和文字描述生成对应的音乐伴奏。
图表:MusicLM 基于艺术画作生成相关伴奏
资料来源:MusicLM 项目主页,中金公司研究部
► Noise2Music:连续应用 Diffusion 模型生成 24kHZ 的音频片段,使用两个深度模型伪标记大型伪标记音频数据集生成训练集,大预言模型生成音乐描述性文本,嵌入预训练的音乐 - 文本联合模型,通过 zero-shot 分类为音频分配相应文本。Noise2Music 可以理解更加复杂的 prompt 语义,生成不同风格,如 “一位女低音在现场表演中演唱一首慢速爵士民谣”;或者模仿不同的乐器,如钢琴、萨克斯、非洲鼓等。
► SingSong:该模型可以根据人声自动生成伴奏,其技术基础建立在人声的音源分离和音频生成上。用户只需要输入其人声,就可以获得对应的乐器伴奏。研究人员召集了一批听众评估模型的效果,展示两个具有相同人声的 10 秒伴奏音频,SingSong 获得的反馈明显优于其他基线模型。
海外案例 2:英国学术机构提出 AudioLDM,提升质量并优化算力消耗
AudioLDM 模型解决了 “文本到音频” 的研究存在的质量有限、计算成本高的问题。英国萨里大学和帝国理工学院联合发布并开源了一个基于去噪扩散隐式模型和对比学习的框架:AudioLDM。该模型提升了文本生成音频的质量;训练过程中仅仅需要文本数据就达到了比使用音频 - 文本相当甚至更好的效果;此外模型训练计算资源消耗低,并且不需要额外训练就可以对声音风格进行变换或者模仿。
国内案例 1:科大讯飞推出全新训练框架优化语音韵律
科大讯飞推出 SMART-TTS 框架并上线讯飞开放平台、讯飞有声以及学习强国。SMART-TTS 不直接学习文本与音频特征的映射,而是通过模块化拆解语音合成的学习过程,预训练加强各个模块。该框架可以提供 “高兴、抱歉、悲伤” 等 11 种情感,每种情感有 20 档强弱度调节;也能提供声音的停顿、重音、语速等,可以在数字人语音上实现真人表达的感情。此外,科大讯飞的语音合成支持 37 个语种、11 种方言、2 种民族语言以及中英混合自然合成。
国内案例 2:国产 AI 语音生成 “独角兽” 云知声
除了文本生成音乐以外,语音合成也是音频生成的重要方向。国内 “独角兽” 云知声提供语音合成产品服务,包括文本语音合成、音库定制和声音克隆。其中,语音合成可以将文本转换成自然流畅的语音,提供更多音色、不同情感并提供调节音量、语速、音高等功能;音库定制主要面向企业客户,提供定制化的音库服务,通过深度学习生成专属 IP 发音;声音克隆可以通过录制少量的用户声音,快速得到音色和发音风格与录音相似的声音模型。这些功能适用于智能客服、智能硬件、新闻播报、自媒体配音等各种有声场景。
创成式 AI 与图片创作:跨模态带来丰富想象空间
2022 年,随着 CLIP、Diffusion 大模型的诞生与开源,DALL·E 2、Stable Diffusion 模型落地进一步推动,文本生成图像等跨模态生成成为 AIGC 落地主线。OpenAI 具备大模型基础、开源数据库中海量图文对应数据、头部厂商的算力支撑以及门槛降低三要素条件后,发布升级版 “文生图” 模型 DALL·E 2,将 AI 作画(文本跨模态生成图像)推向落地,掀起 AI 作画浪潮;2022 年 8 月,Stability AI 开源 Stable Diffusion 模型,标志着 AIGC 在 AI 作画领域跨模态应用的门槛大幅降低,开启全民创作的 “工业化生产” 时代。海外应用层在此基础上催生出 Midjourney、ChilloutMix、Controlnet 等精调模型、插件,不断提高生成图像质量,逐步推动 AI 图片创作商业化。
海外案例 1:“文生图” 开山者 DALL·E 及 DALL·E 2
DALL·E 由 OpenAI 率先推出,并于 2021 年通过 Azure OpenAI 服务开始将其技术商业化,2022 年 4 月发布升级版 DALL·E 2。凭借 OpenAI 在 2021 年发布的基于 GPT-3 的图像文本匹配模型 CLIP,DALL·E 2 具备了联系文本和视觉图像的能力;又通过基于 Diffusion 的图像生成模型 GLIDE,DALL·E 2 能够按照文本生成逼真的图像,分辨率提升了 4 倍,准确率更高,并且业务更广,具备三种功能:1)根据文本提示生成图像,2)以给定图像生成新图像,3)以文本编辑图像元素。
DALL·E 2 目前采取付费购买次数的商业模式:加入 Open Beta 项目后,首月 50 个免费点数,每一个点数对应一次绘图,之后每个月免费补充 15 个点数,目前的价格是 15 美元 115 个点数。相较于 DALL·E,DALL·E 2 不仅能够生成更真实、更准确的图像,还能够更完整地表达场景并通过自然语言描述对现有图像进行增删元素等编辑。而相较于该领域内其他模型,DALL·E 2 的可控性较高,空间结构关系处理优异,高写实的图像仿真度较强。DALL·E 2 的技术成熟和率先落地将 AI 作画从想象照进现实,2022 年 7 月,DALL·E 2 开启邀请制公测,为 AIGC 在 2022 年热度提升的重要推动力。
图表:DALL·E 2 通过文字添加图片元素
资料来源:DALL·E 2 官网,中金公司研究部
图表:DALL·E 2 通过文字输入生成图片结果示例
资料来源:DALL·E 2 官网,中金公司研究部
海外案例 2:Stability AI 开源 Stable Diffusion,以 AI 作画对外输出
Stability AI 成立于 2020 年,2022 年凭借推出并开源 Stable Diffusion 的底层能力,投后估值超 10 亿美元,在种子轮融资阶段即晋升为独角兽。Stable Diffusion 主要基于潜扩散模型(Latent Diffusion Model),通过迭代 “去噪” 输入并解码输出来生成图像,使用空间降维解决内存和模型推理时长痛点,不仅使用户仅在消费级显卡上就能够快速生成高分辨率、高清晰度图像,而且建立开源生态,大大降低用户的使用门槛。至此,开源生态推动 AIGC 的数据、模型与算力问题初步解决,直接降低了使用者的门槛,渗透进多个垂直领域。
海外案例 3:成功变现的商业模式,AI 作图现象级应用 Midjourney
Midjourney 基于 CLIP 和 Diffusion 构建了闭源的 “文生图” 模型,已实现 1000 万用户和超 1 亿美元营业收入。该产品搭载于 Discord 社区,用户通过将 Midjourney 机器人邀请至频道内,并输入以 “/image” 为开头的 prompt 生成想要的图片。Midjourney 拥有超 1000 万名社区成员,通过用户对生成结果的选择来获取反馈,从而具备了庞大且独特的数据集,建立起竞争壁垒。Midjourney 生成的图片所需 prompt 较短、质量高、具有科幻色彩,受设计人群、Web3 & NFT 从业者以及个人用户喜爱,采用 SaaS 付费的商业模式,已经实现盈利。
比起海外前沿技术,国内的 AI 图片创作落地相对早期,但相应成果也取得了一定的进展,涌现出一批创新的产品和技术。其中以百度的文心·一格、万兴科技的万兴爱画为代表,不仅展现了国内拥有人工智能作画的能力,同时进行创新研发出 “AI 简笔画生图”,拓展了创作的交互方式,提高了用户使用的效率和体验。
国内案例 1:百度基于文心大模型,AI 作画能力对标海外
文心·一格是百度依托飞桨、文心大模型推出的首款 AI 作画产品。该产品支持文本生成国风、油画、水彩、水粉、动漫、写实等十余种不同风格的图像,为专业内容创作者提供创作平台的同时为入门级用户、大众用户实现想象力落地提供可能。而面对应用落地的三重挑战:创作需求理解、图像原创生成和创作需求满足,文心·一格进行了三大技术创新,分别是基于知识的 prompt 学习、文本跨模深度融合和文本驱动的图像编辑,实现了创意规划、细节刻画能力和多轮交互提升质量。
国内案例 2:万兴科技深耕 AIGC 作画,OpenAI 赋能国内厂商的案例标杆
万兴科技深耕海外业务 20 年,接入 OpenAI 的 API,打造出面向绘图创意领域的新型创作神器:万兴爱画。万兴爱画定位于专业打造 “AI 生成高品质艺术品”,提供随机生成与关键词创作两种 AI 文生图模式,用户可以自行输入关键词、选择图片比例和艺术风格,30 秒就可以获得由 AI 生成的绘画作品,作品支持各种艺术风格,比如手绘、赛博朋克、二次元、CG 数字渲染等。而且产品支持中文和英文双语创作,通过感叹号和括号强调关键词。
2023 年 2 月,万兴爱画在业界率先推出 “AI 简笔画”。该产品成为全球首款通过用户交互并以此 “图生图” 的 AI 作画软件,标志着万兴爱画助力 AI 绘画进入新时代。相比之前的作画方式,简笔画对用户原先的 prompt 要求更低,如今只需简单几笔就能在 5 秒内生成高质量艺术画作;用户同样可以通过图片选择反馈使模型迭代升级。通过简笔画 “图生图”,用户在创作中更具参与感,过程也更有趣味性。
图表:万兴 “AI 绘画” 创作界面
资料来源:万兴爱画官网,中金公司研究部
图表:万兴爱画 “特色艺术品” 效果图
资料来源:万兴爱画官网,中金公司研究部
创成式 AI 与视频创作:跨模态阶跃尚处早期,有望打开应用天花板
海外科技巨头的标杆案例打开 AI 视频创作的想象空间。2022 年 9 月,Meta 发布了从文本生成视频的 Make-A-Video,能够基于几个词或句生成数秒的短视频。仅一周后,谷歌发布 Imagen Video、Phenaki,分别定位于生成高画质、长时段视频。目前 AIGC 跨模态生成视频领域仍存不足,利用 AI 生成的视频有明显的缺点,例如物体的模糊与扭曲,也不能生成更长的场景来详细、连贯的讲述故事,但我们认为 AIGC 视频生成有望在技术上实现突破,打开应用天花板。
案例 1:Make-A-Video 实现文本与视频之间的跨模态生成
Make-A-Video 能够基于文本生成视频。Make-A-Video 是 2022 年 7 月 Meta 发布的文本生成图像模型 Make-A-Scene 的进一步升级。通过向 Make-A-Video 输入文本即可生成数秒的视频,支持不同的视频风格。除了文本生成视频,Make-A-Video 还能够实现输入单个或两个图像来创建运动,即图像生成视频。
图表:通过向 Make-A-Video 输入文本生成的视频
资料来源:Meta 官网,中金公司研究部
案例 2:谷歌在视频的跨模态生成领域不断产出成果
谷歌在文本生成视频、图像生成视频均有涉猎。谷歌在 Meta 推出 Make-A-Video 一周后,推出了 Imagen Video 和 Phenaki,其中 Imagen Video 画质较高但生成视频时长较短,Phenaki 生成视频的画质较差但能生成超过 2 分钟的视频;2022 年 11 月,谷歌首次发布将二者相结合的视频,兼顾品质与长度。2023 年 2 月 2 日,谷歌提出视频编辑新方法 Dreamix,能够实现对已有视频的编辑和通过提供图片与描述生成视频。
案例 3:Runway 推出的 GEN-1 模型在生成视频质量上更胜一筹
由 GEN-1 模型生成的视频风格多样化。Runway 成立于 2018 年,是 Stable Diffusion 的联合发布方之一。2023 年 2 月,Runway 推出 AI 视频生成模型 GEN-1,通过将图像或文本提示的构图和风格应用于源视频的结构上以合成新视频,在生成视频的画质和长度上再迈进一个台阶。
国内厂商:亦处于早期探索期,辅助创作效率提升
国内厂商在生成视频领域也处于早期探索期。国内厂商在视频领域应用 AIGC 技术更多落在视频内容创作及品质升级的层面,实现视频的属性变化与 “流水线式” 内容创作,目前多应用于 B 端、为内容创作者提供生产效率的提升。
► 文本生成视频:2022 年 5 月,清华大学联合智源研究院发布基于 Transformer 架构的 CogVideo 模型,该模型是业内首个开源的文本生成视频 AI 模型,但生成视频的分辨率较低、长度也较为有限,目前只支持中文输入。
► 画质增强与修复:当虹科技在画质增强类产品已较为成熟,其中包括视频插帧、视频细节增强、提升视频画质、老旧影像的修复与上色等。
► 视频自动创作:百度孵化的智能视频创作工具 VidPress 支持导入图文链接后自动实现配音、字幕、画面的视频内容生产,目前已为人民日报等媒体机构、百家号和好看视频等平台的终端用户提供智能生成视频功能。
► 智能脚本创作:商汤智影推出的 “视频元素分析” 能够提取并分析视频中多种元素,例如人物、场景、道具、台词等信息,自动生成分镜头脚本,准确率达 98%,并提取视频爆款元素,有效减少脚本撰写时间,助力广告厂商节约内容制作成本。
受限于技术成熟度,AI 独立创作的视频仍无法直接实现 2B 端落地变现,但目前已经在辅助商业化创作的过程中发力。2023 年 1 月 31 日,Netflix 与小冰公司日本分部(rinna)、WIT STUDIO 共同创作的首支由 AIGC 技术辅助的发行级别动画片《犬与少年》正式发布,该动画全长 3 分多钟,使用 AIGC 完成部分场景绘制,证明了 AI 技术在辅助视频创作过程中已经开始实现商业化落地,但距离真正应用到大型项目、实现商业化变现仍有距离。
此外,基于自研稀疏模型在垂直领域落地的厂商具备多模态矩阵,以出门问问为例,打造文本、图像、语音、视频、数字人等多模态 AIGC 产品矩阵,布局提供一站式内容生成工具。出门问问于 2020 年推出其第一款 AIGC 商业化产品——配音平台 “魔音工坊” 后,全面布局 AI 声音、AI 写作、AI 图片生成、声音与形象克隆、数字人视频等 AIGC 领域,多点开花聚焦广泛的商业场景。
创成式 AI 与 3D 模型创作:以参数化建模为基,GPT 文字处理赋能
工业场景的 3D 建模对 AI 能力要求较高,现阶段创成式设计无法完全支持。区别于图片和视频的创作,3D 模型主要用于生产工业场景,需要更加严谨理性的建模创作能力,而目前 ChatGPT 等 AI 工具的数学和逻辑能力有所欠缺,因此通过文字描述进行创成式 AI 直接建模的进展相对较慢。另一方面,大装配场景如飞机、船舶等模型的设计需要非常严谨的过程和参数,我们认为创成式 AI 设计在这类大型场景下的支持能力有限。目前我们观察到 AI 在 3D CAD 领域和 EDA 领域的主要落地仍然以 “AI Inside” 赋能为主。
3D CAD 中的创成式设计:以参数化建模为基础的 AI Inside 赋能
3D CAD 场景下的创成式设计(Generative design)主要借助 AI 的能力生成大量可供选择的模型。根据 PTC 官网介绍,三维模型场景下的创成式设计主要是通过设计师给定约束条件(包括空间、材料、制造方法、成本约束等)和目标,借助 AI 的能力来快速生成满足需求的目标模型,供设计师从中选择合适的模型进行进一步设计和优化,从而显著提升设计效率。我们观察到目前 3D CAD 中的 AI 应用主要分为两类:
► AI 辅助参数优化:通常用于 3D CAD 模型的改进过程,基于 CAE 仿真结果(如部分零部件应力过大或形变明显),可以通过对其他部位添加约束,对拟优化零部件生成大量潜在参数并进行选择,最终得到优化的结果。
► AI 实现草图生成:如 Catia 和 Solidworks 的 Xdesign 模块就引入了 AI 辅助创建草图功能,通过给定参数和材料得到系统给出的推荐的形状。其一定程度上能够帮助工程师进行底层几何图形,从而加快整体的设计进度。
3D CAD 创成式设计基础是参数化建模。实际上参数化建模由来已久,1987 年 PTC 公司发布的 Pro/E 首次引入了基于历史的参数化建模,至今主流 3D CAD 产品均有参数化建模功能。无论是 AI 辅助参数优化还是实现草图生成,其本质上都是基于给定的限制条件生成大量参数,进而基于这些参数生成设计方案供设计师选择。目前主流 3D CAD 产品如 Catia、NX、Pro/E、Solidworks、SolidEdge 等均具备 AI 模块,实现辅助设计功能。
EDA 中的 AI Inside:基于已有设计数据实现设计效率优化
AI 赋能有望助力芯片设计实现真正的 “自动化”。目前的 EDA 工具,即使是更加自动化的数字芯片设计流程中仍然需要大量设计师的人工操作场景,我们认为 AI 带来的自动化程度提升有望减少设计过程中的重复性劳动,进一步解放设计师的生产力。目前 AI 对 EDA 设计工具的赋能可以分为 AI Inside 和 AI Outside 两个层面:AI Inside 一般指 AI 赋能相应的设计软件,让设计工具更加智能和高效;与之相对应的则是 AI Outside,即为让机器通过学习来积累经验,从而一定程度上能够代替人工成为新的 “生产力”。
芯片设计后端(尤其是布局布线)是 AI Inside 在 EDA 中的主要应用场景。在数字芯片设计流程中,设计后端最重要的布局布线环节涉及逻辑器件的物理形状和摆放方式,工程师需要考虑综合考虑网表图节点、网格粒度、布线密度等多重因素。因此布局布线通常是数据芯片设计中的高耗时环节,通过 AI 的图像识别和优化算法有望实现设计效率的显著提升。目前海外 Cadence、Synopsys 等 EDA 头部厂商均具备 AI Inside 赋能芯片设计的能力:
► Cadence:2020 年 3 月 Cadence 发布了更新版数字全流程工具,通过 iSpatial 技术整合布局布线工具 Innovus 和前端的物理验证 Genus 工具实现打通,并集成机器学习技术,用户可用现有设计数据对 iSpatial 进行训练,实现布局布线流程中设计裕度的最小化。
► Synopsys:2020 年 Synopsys 发布用于 EDA 的 AI 应用程序 DSO.ai。根据公司官网介绍,设计空间优化(DSO)借助机器学习算法搜索大型设计空间,可用于优化芯片设计工作流程的输入参数和选择,以满足特定项目的确切需求 [1],我们认为其本质上类似 3D CAD 模型设计中的参数优化功能。
展望未来,AI Outside 有望在更高层面实现真正的 “芯片设计自动化”。与 AI Inside 赋能 EDA 工具的理念不同,AI Outside 则更加关注工具使用者的维度,指 EDA 工具通过学习人类的设计模式并积累设计经验,最终达到减少人工干预和释放生产力的效果。目前 Synopsys 和 Cadence 在 AI Outside 助力实现设计自动化上均有所探索,我们认为现阶段实现 AI Outside 面临的主要阻力在于数据获取成本。AI Outside 训练过程对芯片数据可靠性要求较高,而芯片设计公司的数据较难获取,我们认为 EDA 公司依靠和晶圆厂的绑定关系或有望通过工艺数据实现训练,逐步向 AI Outside 目标迈进。
创成式设计与 GPT 大模型的融合:从文字到模型的潜在路径
创成式设计和 GPT 大模型的融合畅想:文字描述参数化。我们认为 GPT 等大模型在 3D 模型设计方面仍然有较大的应用空间。未来的潜在的方向可能是借助 ChatGPT 的文字处理能力来理解设计师的文字需求,即为将文字描述理解和转化为一系列的模型参数,通过 3D CAD 创成式设计得到相应的模型设计方案。
► 创成式设计是当前已经存在的技术储备。目前 3D 模型的创成式设计已经能够实现参数优化和草图的生成,我们认为随着技术逐步完善,从给定参数到 3D 模型生成这一步骤或许不是从文本到模型的瓶颈。
► 文字到参数的转化是文生模型过程中的最大难点。目前的 Transformer 模型更加擅长场景是自然语言处理,我们认为将文本转化为设计师需要的参数是较大的难点,打通文本描述到参数描述的瓶颈有望为文本到模型的实现铺平道路。2021 年 Deepmind 论文论述了图形和序列打通的可能性,借助 Transformer 模型自然语言处理能力实现 CAD 草图生成。
图表:DeepMind 论文中构建了图形和序列的映射
资料来源:《Computer-Aided Design as Language, Ganin 等(2021)》,中金公司研究部
DeepMind 借助 Transformer 模型自然语言处理能力实现草图绘制。草图设计是构成 3D 模型的骨架,其通过特定的约束来定义了实体如何在参数变换下保持原有的形状。DeepMind 在 2021 年发表论文,论述了 CAD 草图绘制和自然语言建模的相似性,提出了能够自动生成 CAD 草图的机器学习模型,在无条件合成以及图像到草图的转换任务中表现良好。论文的亮点在于实现了图案和序列的对应,从而能够应用 Transformer 大模型实现对序列的处理。我们认为随着 Transformer 大模型应用逐渐深入,其与 CAD 融合应用或将持续推进,未来或将诞生基于文本实现更高级别模型生成的应用。
本文作者:于钟海(执证编号:S0080518070011)、王之昊(执证编号:S0080522050001)等,来源:中金点睛,原文标题:《中金 | AI 十年展望(六):ChatGPT 兴起,创成式 AI 能否重塑工具软件底层逻辑?》