Chen Shi of Fengrui Capital: Next year will be a big year for AI applications, and revenue visibility is expected to improve | Alpha Summit

華爾街見聞
2025.01.06 06:28
portai
I'm PortAI, I can summarize articles.

陳石表示,在 OpenAI 的 o1、o3 等新模型的加持下,AI 應用即將迎來全新的創業機會。AI 應用的創業者可以優先考慮面向專業用户(ToP),學習和借鑑當前成功 ToP 應用(如多模態創意工具和 AI 對話助手等)的經驗,努力研發遠超傳統互聯網應用體驗的新型 AI 應用。

12 月 21 日,在华尔街见闻和中欧国际工商学院联合举办的「Alpha 峰会」上,峰瑞资本投资创始人陈石对 AI 行业的发展进行了回顾和展望,并分享了对业内前沿大模型和 AI 应用的理解。

以下为演讲精彩观点:

1. 除 AMD 和英特尔外,美国不少科技大厂、模型厂商和创业公司都在做自己的算力芯片,希望能够在巨大的 AI 大模型算力需求中,从英伟达芯片的市场分一杯羹,特别是在推理芯片方面。应用方面,模型的小型和端侧化是一个明显的趋势,如果你在终端上运行较大的模型或通过远程 API 调用云端大模型,其实会很慢,而且成本也不划算,所以基本上来说这是一种趋势。

2.当前,两类 AI 手机应用最挣钱,一类是AI+图像/视频,即多模态创意工具,包括制作商业视频、修图等偏营销的内容创作,这类产品的市场份额为 53%。另一类是AI+Chatbot包括 ChatGPT 这类大模型助手和 Character.ai 这类 AI 陪伴聊天助手,市场份额在 30% 左右。

3.在 AI 产业供应链中,大型云厂商扮演着风险吸收者的角色,但反过来讲,大型云厂商也掌握着 AI 的商业生态,掌握着资源、人才和高达数千亿美金的云计算市场。所以我觉得当前AI产业供应链的链主是大型科技云厂商,而非模型厂商。

4. 当前类似 GPT 系列的预训练模型,其回答问题的模式是 “一下子给出答案”,不具备分步骤、回溯迭代等 “思考” 能力,而 OpenAI o1/o3 这类模型在接收到问题指令后会先 “深思熟虑”,在解决问题的过程中搜索可能涉及到的思维链空间,然后再输出答案。这与人类的复杂思考过程类似,它更适合做复杂推理,这是以前的模型都做不到的。

5. 现在用户越来越希望获得 AI 模型的即时反馈,洞察个人需求并给出贴切的个性化答案,这对模型性能、产品规划等方面都是巨大的挑战,但这种产品一旦做出来,就有希望打败基于传统代码的移动互联网产品。

6.当前,大模型厂商阵营基本形成,阵营里的5家公司分别是:谷歌、OpenAI、Anthropic、xAI 和 Meta。这意味着,AI 的基础设施已经具备,后续应用开发面临的问题不会太大。

7.2025年有望成为AI应用大年,供应链的资产负债表可能会逐步得到修复,这得益于前期投入的累积,另外,客户端收益的能见度也会有所提升。

以下为演讲实录:

谢谢大家,谢谢 Alpha 峰会的邀请,去年我也来做过一次 AI 主题的分享,当时提到了一些话题,比如生成式 AI 的多模态、复杂推理、具身智能以及模型的自我迭代。最近这一年,我发现 AI 技术发展十分迅速,已经出现了实践的产品。峰瑞资本 2024 年一共投了近 30 个项目,大部分都是跟 AI 相关的,比如应用、硬件、芯片、具身智能、AI 赋能科研等,所以今天我也想跟大家做一次分享,分享我们 2024 年的投资实践和产业思考。

我的演讲分为三个部分,第一个部分是行业整体情况,包括供应链等;第二个部分是模型和应用的深入讲解;第三个部分是对 2025 年 AI 的行业展望和其未来趋势。

我们先对 2024 年 AI 的发展进行快速回顾,大概分成两部分,上面一部分是关于 AI 行业的原始驱动力,如大模型以及它的基础设施,下面一部分则侧重于 AI 在应用端的情况。

在大模型方面,我们看到在闭源基座模型领域中全球出现了三家领先者,分别是 Anthropic 的 Claude 3.5, Google 的 Gemini 1.5,还有 OpenAI 的 GPT-4o,这三个模型并驾齐驱,达到业界的 SOTA 水平。

但在今年的下半年,很多人会产生疑问,AI 行业是不是正面临衰退?他们观察到规模法则似乎不再奏效, OpenAI 一段时间内也并未推出特别好的新模型。当然, OpenAI 后来还是不负众望,在今年 9 月份发布了 o1 模型,在 12 月份又发布了 o3 模型,它几乎是我们 AI 行业全村的希望。

为什么这么说?闭源模型到了GPT-4水平之后,现有的预训练方式其实很难再有大的提升,除非它的基础设施再提高几倍甚至十倍,据说训练下一代模型需要的算力是当前模型的 10 倍。而现在的 o1 和 o3 新模型是一个新的训练范式,能带来复杂推理和自我迭代能力的极大提升,这部分后面我会再简单介绍一下。

在多模态方面,2024 年也有很大的进步,从年初 OpenAI 的视频生成模型 Sora 到年末 Google 的 Veo2 模型,还有 5 月份发布的 GPT-4o(o 是 omni,全能的意思),它的输入支持多模态、输出也支持多模态,特别是实时语音对话,效果很惊艳。

在开源方面,我觉得 Meta 是一个很聪明的公司。在闭源领域前三家难以被超越,Meta 选取开源的生态位是很明智的,大量的开发者、行业应用和行业模型都会使用 Meta 的 Llama3 开源模型,原因是开源模型能带给他们更多二次开发、模型微调和能力扩展的空间。当然我们欣喜地看到国内也推出很有竞争力的开源模型,例如 Qwen 和 DeepSeek。国内企业在研发的行业或企业模型及应用时,一般会首选国产的开源模型。

在基础设施方面,我觉得变化并不显著,英伟达还是一股独大。但是我们看到,除 AMD 和英特尔外,美国不少科技大厂、模型厂商和创业公司都在做自己的算力芯片,希望能够在巨大的 AI 算力市场中,从英伟达手中分一杯羹,特别是在推理芯片方面。中国也有不少这类芯片公司,包括我们峰瑞投资的公司,在积极从事这方面的研发和生产。

从用户侧应用的角度看,模型的小型和端侧化是一个明显的趋势,因为如果在终端上运行较大的模型或通过远程调用云端大模型,速度慢且成本高。美国苹果公司在 10 月底发布的 Apple Intelligence 功能,采用一个自研 30 亿参数的端侧小模型,能够在当前的手机、Pad 和笔记本上部署和运行。但最近有媒体报道 Apple Intelligence 偶尔会出错,包括幻觉和新闻标题错误等,这可能也跟模型参数小有关系,有进一步提升空间。

此外,AI 和大模型的技术在 2024 年的破圈较为明显。第一个是基础科学,今年物理学、化学的诺贝尔奖都颁发给了 AI 领域的科学家和工程师,第二个是在自动驾驶上,特斯拉的 FSD 算法,以及国内的新能源厂商或智能驾驶公司,在算法和模型上的突飞猛进,都离不开基座模型和 AI 技术的赋能。第三个获得 AI 赋能的领域是具身智能,也是 AI 方向很热的赛道,我们峰瑞今年也投了多家这个领域的公司。

最后一点是 AI 应用的落地。2023 年我在 Alpha 峰会的分享中,也提到过 AI 应用要开始大力发展,但很遗憾,2024AI应用的发展不及预期相信明年AI应用会有比较好的产出,具体情况我接下来会有分析

AI 行业的现状如何?美国红杉最近发文称,“AI 的基础已经稳固建立。”意思是现在全球的五大模型厂商阵营已经基本形成,后面可能会有一些微小变化,比如说苹果是不是会进入,但现在看起来这五家已经处于领先的地位,包括谷歌、OpenAI、Anthropic、xAI 和 Meta,这五家各有所长,再加上 o1 和 o3 这样的新模型还在继续发展,构成的整体模型能力已形成支持 AI 应用落地的稳固基础

现在我们来看一下 AI 行业的投入产出,这也是 AI 行业被诟病最多的一点,具体来说,投入巨大但是产出寥寥。四家头部的科技巨头 Meta、Google、 Microsoft 和 Amazon,它们 2024 年第二季度的资本支出是 529 亿美金,大部分投资在 AI 方向。此外 VC 和科技巨头一起投资的 AI 创业公司,在投资额上也是创出新高。上述四巨头运营的 AI 数据中心的数量,也从 2020 年的 500 家扩展到 2024 年的近 1000 家,而且这些数据中心都是高级别、以 GPU 为主的算力密集型大型数据中心。

头部 AI 算力芯片提供方英伟达公司 2025 财年 Q2 的收入达到 300 亿美金,这些收入主要来自于 AI 行业的算力投入,当然除了算力还有大量人才的投入。

业界认为,对比上述的各种投入,AI 行业的产出要到 6000 亿美元才能达到投入产出的合理水平,但今天 AI 行业的真正产出是在数百亿美元的水平,精确的数字很难统计,但估计应该是300亿美元左右,距离6000亿美元仍有较大差距。

还有另一项统计数据显示,当前全球 AI 创业公司年循环收入能达到 1000 万美元的不到 100 家,收入整体相对较低。我这里列出几家头部公司的收入数据中,OpenAI 应该是收入最多的,它声称 2024 年要做到 37 亿美元营收,其他包括微软的 Github Copilot 和 Anthropic 等。此外,根据 Sensor Tower 发布的图表,2024 年手机端的 AI 应用收入约 33 亿美元,其中两类 AI 手机应用最挣钱,一类是AI+图像/视频,也就是多模态创意工具,包括视频、图像创作编辑等,这类产品的市场份额为 53%。另一类是AI+Chatbot包括诸如 ChatGPT 的大模型助手和 Character.ai 这类的 AI 陪伴聊天助手,市场份额为 29%,其他类型的应用相对收入较少。从国家市场上看,欧美占据三分之二左右,所以出海也是主要的需求,我们投资的 AI 应用公司大多在出海。

刚才讲到了 AI 行业投入产出的不匹配,那么这个行业的风险由谁承担?美国红杉资本提出当前 AI 的供应链处于 “脆弱的平衡” 状态。分层来看,最下层的代工厂是盈利的,比如台积电;往上一层的半导体厂商也是盈利的,比如英伟达;中间的云厂商是亏损的;之后的模型厂商应该也是亏损的,且模型厂商的投资来自云厂商或风险投资;最上面则是客户层,也就是应用层的收入,比如 ChatGPT、Github Copilot 等。那么风险在哪?风险主要在大型云厂商。大型云厂商投入大量的资本支出,扮演着风险吸收者的角色。从另外一个角度看,我会觉得大型云厂商其实掌握着 AI 的商业生态,掌握着资源和人才,也掌握着高达数千亿美金的云计算市场,AI供应链的链主就是大型云厂商,这种情况在中国和美国都适用。所以业界需要思考,模型创业应该如何做?大模型创业公司能不能独立发展起来?

美国头部的语言模型阵营已经基本收敛,主要是科技大厂和头部模型的结对,刚才提到了这 5 家模型厂商。本来可能的挑战者,如 Character.ai、Inflection 和 ADEPT 等,也纷纷被这几家大厂收购,再此验证大厂对 AI 供应链的控制力。中国的语言模型阵营也在迅速收敛,中国的大型云厂商阿里、字节、腾讯、百度等,不但自研模型,其中几家也在积极投资模型创业公司。作为创业公司,中国的模型六小虎已经跑在前列,但在今年也承受了很大的压力。其他还有少数有竞争力的跟随者。回到我们前面讨论的,中国未来我觉得也是云厂商在控制AI供应链,独立的大模型还是比较困难的。当然,中国还有一个特殊因素就是国家队。我觉得应该会有国家队出现,或者国家队支持的创业公司

有一个来自 EpochAI 的图表,显示开源模型和闭源模型的时间差距是 5-22 个月——例如 GPT-4 发布之后,Llama 3.1 大约经过 16 个月时间可追平当时 GPT-4 的水平。你可以认为开源就代表着行业的基准线,所以这是一场残酷的生存之战,即我们的三大闭源模型,它们最多只有22个月来发展用户和占领市场,不然行业就会追赶上来。

所以,如果 Llama 及 Qwen 等模型的开源策略不变的话,中外的闭源基座模型都将面临很大的竞争压力。开源模型的定位很不错,抓住了行业和企业的开发者,也包括一些大型企业,大力形成合作生态,并成为了闭源模型很好的跟随者。当然,国内的闭源模型厂商更难受些,无论是大厂还是创业公司都一样,因为你在警惕海内外开源模型的追赶之余,还要投入巨资持续追赶全球最领先的模型,窗口期更短。据说,GPT-4 基座模型的训练成本需要 1 亿美金,而 GPT-5 或下一代基座模型的训练成本要达到 10 亿美金。即便是中国的大厂,要拿出 10 亿美金去训练模型也会面临挑战。当然后续也还存在不确定的因素,那就是如果 Meta 要花 10 亿美金训练下一代模型,它还会不会愿意像现在这样开源?这也是未知因素,所以这个行业其实存在很多的不确定性。

前面讨论了模型,现在讲应用,为什么觉得 AI 应用不达预期?除了前面提到的收入低之外,还有两个部分。一方面,我们 AI 应用的前两位,即用户量最大的应用分别是 ChatGPT 和 Character.ai,ChatGPT 的访问量在经历了早期疯狂陡峭的曲线上升之后,到 2023 年夏季突然间走平,到 2024 年夏季才突然又有上升趋势,应该是 GPT-4o 发布的时间节点,后面的数据暂未更新有待观察。Character.ai 更是在 2023 年下半年访问量就开始下滑且一直没有抬头的趋势。所以在用户增长方面,头部公司面临一些挑战。另一方面,把现在的头部 AI 应用跟互联网/移动互联网时代的头部应用进行对比,发现前者的用户活跃指标远远不如后者的,这也是一个不那么理想的情况。

当然这只是现状,而且有个体原因,但 AI 作为新兴行业,如果头部企业不能持续快速发展的话,行业整体都会稍微面临压力,我猜主要问题可能还是模型能力不够,使得我们的AI应用对比传统应用拉不开差距。如果我们能够有新的模型,解锁更多更强大的能力,就有可能创造出体验远超当前的应用,说不定会有机会跳过增长陷阱。

据美国 a16z 统计,全球用户访问排名前 50 家的应用和 App 中,有 52% 是创意工具,即图片视频编辑工具,这是比较明显的最大品类。第二大品类是 AI + Chatbot,例如 ChatGPT 这类的大模型助手和 Character.ai 这类的 AI 陪伴聊天助手。其他的品类变化不大,所以2024年头部AI应用在品类上也没产生显著的变化。

在行业整体概览之后,我们来深度讲解一下模型的进展。我们先聚焦于 OpenAI 的 o1,o1 代表一种模型新范式,借助思维链,带来复杂推理能力的增强。推理 Reasoning,是指使用理性思维和认知过程,从现有知识中推断出新知识。这是人类一个非常强大的能力,包括常识推理、数学推理、符号推理、因果推理等。

那么思维链是什么?思维链是指一系列中间推理的步骤。人在思考一个复杂问题的时候,他脑子里是有一个思维链条甚至是思维树、思维图的,这些统称为思维链。在思考过程中如果发现走这一步不行,那就退回到前面的步骤进一步探索。但是我们今天的预训练模型例如 GPT-4,是没有回退的能力,它的工作模式就像 “文字接龙”,每次出一个字(token),如果你走了十步,发现前面有个字出错了,是没有办法退回来的,只能在后面进行修补,但这可能就修补不回来。这只是个不准确的简单比喻,但有助于我们理解为什么当前的基座模型,在复杂推理等方面的能力不如人类。

今天,o1 就有比较强大的复杂推理能力。如果我们提问题,它会先思考,而不是马上给出答案,在思考过程中做思维链的搜索或遍历,遍历结束后它会开始说出结论。在我这个演示里,它给出了结论结果之后,还会有一个叫思维链步骤的总结,这里它总结出 9 个思考步骤,但是它其实有个隐含的复杂思维链,根据 OpenAI 的论文,以上述 9 个思考步骤的思维链为例,隐含的思考过程大概有 600 多行文字,每一行都有点像自言自语,是 “我做了这个、我猜可能什么样、发现不是我又回退到前面什么地方”,这个过程就非常类似人类的思考过程,更接近复杂推理能力。

复杂推理的评测标准是什么?一个是 AIME,即美国数学邀请赛;另外一个是 Codeforces,非常难的编程竞赛;还有一个是 GPQA,博士级的科学问题。o1 的回答明显超过之前其他模型,部分评测超过人类专家。而 o3 在 o1 基础上能力又有大幅提升。OpenAI 在今年 7 月份发布了基座模型的 5 个能力等级,并认为当前的 o1 或 o3 已经达到第二等级即 “推理者” 的水平,就是推理能力比较强、能够执行基本任务的等级,相当于没有任何工具的博士学位水平的人类。

简单理解,我觉得 AI 模型的学习分为两个步骤。第一个步骤是 GPT 类型的预训练,利用大量的人类文本数据去训练,可以理解为是 “模仿学习”,模仿人类如何遣词造句、怎么做思考等等。而到了当前阶段,可供模仿的互联网数据已经差不多用完了,这时候 o1、o3 这类模型,开始选择用强化学习,通过主动探索和自我博弈之类的方式生成数据,基于思维链等方式来进行模型的训练和推理,并实现 “测试时间计算”。

做个类比,有点像一位武学大师,年轻的时候跟师傅学习,学得挺好,但是超过师傅之后,如果找不到更好的师傅怎么办呢?他只能自我学习,自己摸索着前进。

之前下围棋的 AI 模型(AlphaGo 和 AlphaZero)也是如此。AlphaGo 原先是利用人类棋谱训练,到达一定程度后棋力升级乏力,然后 AlphaZero 就出来了,它完全扔掉人类棋谱,依靠自我博弈来训练自己,达到更高的境界。这也是模仿学习和强化学习逐步递进的案例之一。所以其实技术上有很多概念是互通的。

o1 或 o3 这类 AI 模型的强化学习难度比围棋更大,因为围棋是有简单的评测标准的(例如输赢),而 AI 模型在大部分情况下拿不到准确的评测信号。不过很聪明的一点是,这次它们拉来一个帮手,即之前模仿学习训练出来的 GPT 这类预训练模型,后者可以帮助生成更好的评测信号,从而帮助 o1 或者 o3 的强化学习训练。

最近有一个讨论是关于陶哲轩和 Mark Chen 的,陶哲轩是著名数学家和菲尔茨奖获得者,Mark Chen 是 OpenAI 的研发副总裁。陶哲轩说,AI 不擅长找到正确的问题,但它可以在一个更大的项目中处理非常狭窄的特定部分,类似于在仅有稀疏数据时产生推理,所以这个能力很强大,来自于直觉和经验。Mark Chen 则说,我们现在正在做 test time computer,即测试时间计算,他认为这个是可以超越当前推理能力,在稀疏数据条件下达到与人类类似的直觉式的推理。我觉得两者都是有道理的,陶哲轩那个时候还只在用 GPT-4,用 AI 作为数据科研,当时的 GPT4 预训练模型确实只有这个能力,但是 Mark Chen 说的也有道理,因为像 o3 这样的新模型确实有能力达到这个水平。

因为 o3 是今天(北京时间 12 月 21 日)凌晨 4 点发布的,我特地添加了一页 PPT。模型的三大能力之一是编码编程,数据集评测分数比 o1 提高到 70% 多。我们投资了一家做 AI Coding 应用的公司,创始人跟我说,如果模型在高难度编程测试数据集的评测分数超过 70%,基本就算可实用了,因为我们可以想些其他办法降低实际应用的难度,让 70% 的模型能力做到接近 100% 的应用能力,所以 70% 以上模型基本就够用了。此外,o3 的美国数学竞赛和科学问题的得分也明显高于 o1。

这里还想提一点,按照 OpenAI 官方的说法,o1 是一个大型推理模型,是用强化学习来训练的语言模型,o3 只不过进一步地扩展了强化学习的规模,但是短短的三个月时间内让 o3 相对 o1 有那么大的提升,还是非常令人惊喜的。这还可能只是第一步,后续应该还有进一步提升和优化的空间。当然,o3 的运行成本非常贵,据非官方测算,最高配置的 o3 回答一个问题的成本可达 2500 美元。但我觉得,未来成本问题是可以逐步解决的。

去年我在这也提到过多模态,当时业界认为视频会在 2024 取得突破,今年果然有突破。突破的标准是,我们看到有些公司开始用这些视频生成工具来生产广告或者影视作品的原始素材。多模态其实只是人类的概念,如果从 AI 模型的角度来说,各种模态在它的 “脑海” 里都是一个高维空间的向量。例如 GPT-3.5 模型的向量是 12288 维的,后来维度有所降低和优化。所以无论是文本、图像,还是视频,对 AI 模型来说都是向量。向量就可以相互做计算,比如以前我们说的 “国王” 这个向量,减去一个 “男人” 向量,加上一个 “女人” 向量,就得到一个 “女皇” 或 “皇后” 向量。AI 模型的训练和推理,本质上都是在进行类似的向量计算。但是因为 AI 模型需要跟人类交流,它还是需要认识我们的多模态数据,另外也需要输出多模态数据,所以就有个 “解构” 和 “重构” 的过程,这个过程就要借助一些算法。其实我们今天看到的算法,包括大家都知道的扩散模型(Diffusion Model)、神经辐射场(NeRF)等都是一些非常有意思的算法。

以 AI 画图为例,一般人类画师如果绘图,他会找张白纸,先勾勒出大致形象,然后逐步补充细节,再去染色,最后做些小的修补,一步步生产出一张画像。但是 AI 画图并不遵循这样的流程。以 Diffusion Model 为例,它首先生成一张原图(其实是一张随机生成的噪声图,即各向同性高斯分布的噪声图),就是 PPT 里左上角的一块图,然后 AI 模型在提示词的指导下,每次生成一张去噪图(其实也是一张噪声图),并从原图中去掉这个去噪图,这样循环操作,经过几十步或者上百步的去噪过程,就画出这张带着帽子的女士的画像。这个操作很违背我们人类的直觉,人类直觉不会觉得还能这样画图,但 AI 就是这么理解、这么画图的,这甚至可能比人类还高效。这些算法比较复杂,大家没必要都仔细去了解,但是这些算法确实非常神奇。

今天的多模态其实还是以文本作为主模态的,因为其他模态都是通过文本模态做的转译或映射。这个转译” 原理有个通俗的比喻,如果 AI 看到一张图,它会先进行 “看图写作”,写一篇很长的作文来描述这张图,然后把这篇作文的文本作为整体映射到语言的高维空间里,形成一个高维向量,这个向量就是这张图的向量。所以它是借助于文本这个载体映射到高维空间里面去的。

模态的概念是可以延展的,不仅仅是当前的文本、图像和视频这几类模态,像 Alpha FOLD 生成的蛋白质三维结构,两人对话形式的播客等都可以算是一类模态。我们峰瑞投资的一家公司叫 Top view.AI,其目标就是给 TikTok 或者 Instagram 的商家制作商业视频,但是它基本上无需人工介入即可完成大部分工作,我们只要提供商品详情页的链接,它可以自己抓取文本、图像、视频,融入指定的数字人的形象,然后自动进行剧本创作、配音配乐和视频剪辑合成等一系列工作,最后完成视频。

今年有个词特别流行,叫 “世界模型”,它到底是什么?首先说我们为什么需要世界模型。我刚才讲到文本是主模态,其他模态通过文本映射进入这个高维空间,但是文本难以准确表达物理世界,比如说复杂的空间关系,写作文来表达它很困难,再比如说物理属性,杯子摔下来可能会碎,那这种情况应该怎么去描述?不可描述。所以大家认为,是不是还应该再做一个模型,使其天然就具备一些视觉的能力,我们叫感知。例如,我今天站在讲台上往前看,我会迅速感知到在中欧工商学院,Alpha 峰会的现场是什么样,有个整体感知,就不需要通过文本去映射其他模态,而且感知之后我还可以预测,预测之后还可以跟这个物理世界做交互。这些就属于 “世界模型” 的基本概念。总结一下,大语言模型形成了一个基于文本的 “世界模型”,而文本是一种抽象,它有损失,所以我们要做一个 “视觉” 的世界模型。Yann LeCun 提出的 “世界模型”,李飞飞提出的 “空间智能”,其中都有类似的概念。

被称为 OpenCV 之父的知名 AI 专家 Gary Bradski,提出了一个 “WHAT-WHERE-WHY” 框架,可用来简单解释什么是 “世界模型”。“What” 指我看一眼知道今天有谁,有些什么东西,有什么事件;“Where” 指在哪里,即它的位置,以及相互之间的空间关系;“Why” 指事件背后的因果关系或目的等,以今天我的 AI 分享为例,听众们是金融行业的翘楚,过来想了解一下 AI 行业的发展情况,这就是一个前因后果的实例。这个模型比较简单,有助于我们理解 “世界模型” 的基本概念。

前面探讨了模型的算法,现在讲讲算力。马斯克建造的十万卡的集群,是全球最大的集群之一,当前,其他公司都在追赶,面临着不小的竞争压力。从数字上来说,四巨头在 2024 年的资本支出超过 2000 亿美元,大部分可能都投入在了数据中心建设上,据说训练下一代模型的算力需要 10 倍,也有人说下一个阶段数据中心物理建设的重要程度将超过科学发现。

接下来我们讨论数据。众所周知,算法、算力和数据被普遍视为模型的三大生产资料。在 AI 领域构建一个大模型的时候,前面的预训练阶段已经使用了大部分数据,剩余的人类数据比较少,就需要大量的前沿数据来训练。当前,预训练模型的能力边界是数据,数据到不了的地方模型就不能模仿,所以要沿着它的能力边界去构建一些数据,从而帮助模型产生相应的能力。因此前沿数据的重要性凸显。现在比较缺乏的是复杂推理、专业知识、人类思维模式等这类高品质的数据。

但是我们还有一条路径,就是所谓的算法合成数据,包括今天提到的强化学习、自我博弈,这些都是新的方法,但反过来讲,强化学习又需要新的数据来训练它的能力,所以这三者是非常耦合的关系。我们投资了一家做数据工程的公司,人机结合来标注数据,也积极利用算法来合成数据,这家公司当前也在积极出海。这个领域的头部的公司叫 Scale AI,盈利能力很强,估值也很高。

再来谈谈 AI 应用,我觉得 AI 应用跟传统互联网应用不太一样。我们以前一般把应用分为两大类,一个叫 ToB,一个叫 ToC,但我觉得今天在 AI 行业,应该有一个新的分类叫ToPProsumer,专业用户),这个类别的应用当前在用户增长和商业化方面表现出色。Prosumer 包括比如说内容创作者,这就是创作者经济,从业者估计有 1 亿以上。还包括一些专业从业者、技术专家、深度用户等,这些都是未来的超级个体。这类人有明确的需求,热爱学习,能够积极学习去掌握一个功能强大但上手操作并不简单的 AI 工具,我觉得这些专业用户是当前最理想的 AI 应用使用者和付费方。今天ChatGPT 大家说可能是ToC,但我觉得它是ToP因为说句实在话,我身边也很少有人能够真正地把 ChatGPT、豆包、Kimi 这类 AI 工具用好。我最近写一篇文章,在整理思路、构建框架、形成初稿和文字润色等各个方面,高强度地使用了 ChatGPT,感觉写作效率和写作质量都有大幅提升,这个过程让我深刻体验到这类 AI 应用对于专业用户的价值。

这只是一个案例,说明当我们要真正把 AI 作为深度生产力工具的时候,首先会面临一条陡峭的学习曲线,并非所有人都能学会,掌握后还要容忍它出错,因为尽管 AI 强大,它也容易出错,产生幻觉,所以我们还要有能力去判断,不能盲目接受。具备这类能力的人当前还不多,我觉得在座都可以是这样的专业用户,但一定要广泛尝试和深度使用 AI 工具。

我也想鼓励AI应用的创业者先做ToP这个市场,要找各行各业的专业用户,给专业用户先提供一个功能强大工具,体验要明显优于传统互联网应用,偶尔不稳定和出错也没关系。这类工具先从 ToP 做起来,后续有机会可以往 ToB 或 ToC 去延展。前面我们提到的多模态创意工具大部分也属于ToP ChatGPT本质上也是ToP,当前To P应用明显占优,用户增长不错、营收能力也强。

第二个就是 ToB,面向企业提供服务。因为人类的工作流程很复杂,再加上人机混合的难度,AI 应用切入进来不太容易。所以我觉得它可能应该先从一些独立的业务模块或者标准的技能模块切入进来。

第三个是 ToC,ToC 的话感觉是颠覆时刻未到,我觉得核心原因是模型的能力还不足够。举个例子,我们之前看过一些项目,让 AI 在小红书等社交媒体发带货文章来挣钱,能形成一定的收入;但是后续我们发现,它写的文章并不能有效涨粉,阻碍了这类应用的进一步发展。为什么呢?我觉得,今天的语言模型可以写出中上水平的内容,但要创作出圈粉的文章,预训练模型的自己能力还达不到,可能需要大量人类的参与和指导。o1、o3 这类模型之后情况可能会有所好转吗?暂不可知。现在很多 ToC 的 AI 应用都跟上述案例类似,就是功能虽然不错,但是跟传统软件相比的功能领先优势不大。

进入到最后一部分——展望和挑战。关于挑战,一个显著的问题是产品落地缓慢,技术应用周期长。核心原因可能是大家都认识到 AI 要竞争过传统移动互联网,产品体验是一定不能减分的,成本可以初期承受损失,之后再慢慢降低。但因为模型能力还不足够,产品质量很难达到八九十分的水准,可能就只有六十分甚至不及格。

还有一点,现在用户会变得越来越希望AI成为贴心的助手,当我问什么问题,AI 可以精确判断我的意图,直接给我需要的反馈结果,而不是给我一堆搜索答案、或者需要让我多次交互。未来的 AI 应用,一定需要服务用户较长时间,对用户的习惯(“上下文”)有深度理解和长期记忆,当用户问个问题,AI 就能知道用户问题背后的需求,从而直接给出准确的答案,甚至给出一些用户自己都没想到的答复,这才是 AI 时代的应用产品应该具备的模样。如果做出这种产品,相信它绝对可以打败现有的基于移动互联网的传统应用产品。但是这对模型的要求很高,对产品的设计、建构、规划都有很大的压力。

关于 2025 年的行业期望,有以下几点。一是模型逐渐成熟(特别是在 o1、o3 等新模型的加持之下),AI 应用落地取得阶段性的成果,我觉得2025年可能会成为AI应用的大年,AI 供应链的资产负债表可能会逐步得到修复

二是关于模型的优化,比如 “世界模型” 与物理世界融合的推进,无论是对自动驾驶还是智能机器人,我觉得都会有很大帮助。三是多模态融合,我觉得还可以更进一步。四是模型的可解释性与安全性,我们叫可解释性是因为它是个黑盒子,你不知道它在想什么东西。AI 模型是高阶智慧,它的能力未来会超过人类,我们需要了解它到底在想什么,然而这是一项极具挑战性的任务,现阶段还没有成熟的方法,但这也是我们想要的,否则你真的很难控制一个能力这么强、但是又不听你的模型。

人类的劳动分为体力劳动和脑力劳动,其中脑力劳动以知识、智力和创造力为核心。但是今天,我觉得 AI 在解构人类的劳动,未来 AI 也会具备这样的劳动能力,甚至超过人类。AI 还有一点比人强,人类培养出一个爱因斯坦这样的顶尖科学家非常难,却很难将其能力复制给其他人,而AI一旦训练出一位顶尖科学家,它可以迅速批量复制。所以最后这些人类引以为傲的脑力劳动能力,可能未来 AI 都会具备,而且经过规模化复制后,最终会以软件化的方式低成本提供。如果再加上具身智能的机器人,体力劳动也可能被大范围替代。

所以,未来的劳动可能会软件化,就像即插即用的工具一样来获取。当然我觉得大家也不必过于紧张,这还是很遥远的事情,而且我们人类还会找到自己跟 AI 相处的方式。回到当前,我觉得最重要的是,我们在座各位,大家要多用 AI 工具,多了解它的能力,多了解它的不足。在这个过程中我们也能有一些新的思考和进步,对我们自己的事业、工作和生活也会有很大的促进,希望大家有机会一定要认真地去用当前的 AI,用 AI 工具把自己武装起来,成为未来的 “超级个体”,谢谢大家!

Alpha 峰会由全新林肯飞行家 AVIATOR 为您特约呈现

即刻启程,从容驾驭 2025 全球投资之旅