Alter聊科技
2023.03.26 08:40
I'm PortAI, I can summarize articles.

别急着给中国版 ChatGPT 唱赞歌:“追风者” 无缘 “星辰大海”

文心一言发布十余天后,争论仍未有止歇的迹象。

有人给出了 “拉垮” 的评价,相比于多轮迭代的 ChatGPT,文心一言在逻辑推理、多轮对话等方面的表现不尽如人意;也有人认为给文心一言值得肯定,原因是填补了中文互联网的空白,以及百度直面竞争的勇气。

可能最终会像李彦宏在发布会上所说的:当前文心一言的内测体验并不能叫作 “完美”,发布是因为有市场需求,“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你 ‘士别三日,当刮目相看’ 的惊喜。”

这里并非想对比文心一言与 ChatGPT 的差距,而是想要讨论这样一个话题:那些以 “中国版 ChatGPT” 自居的玩家们,到底是 “追风者” 还是 “追赶者”,不同的 “初心” 显然对应着不同的结果。

01 中国版 ChatGPT 的虚与实

国内企业对 ChatGPT 的态度,大致可以分为三个阶段:

第一个阶段是 2023 年农历春节前。

OpenAI 在 2022 年 11 月 30 日推出了聊天机器人 ChatGPT,5 天时间注册用户量就超过了 100 万。期间不乏国内媒体的报道,微博等社交网络上逐渐流行起各种说法:ChatGPT 可能将颠覆谷歌,掀起一场搜索引擎的大革命;大学生开始用 ChatGPT 写论文,部分高校宣布将禁用 ChatGPT……

彼时 “中国版 ChatGPT” 的话题已经在技术论坛里小范围讨论,国内大厂的工程师们大概率有参与其中。可由于 ChatGPT 频频被曝出回答错误、存在假消息,且商业化落地的前景不明朗,国内大多数企业都选择了缄默。

第二个阶段是 ChatGPT 爆红后。

时间来到 2023 年 1 月末,ChatGPT 的注册用户破亿,成为史上扩散速度最快的应用,这场 AI 风暴终于吹到了太平洋对岸。国内社交媒体上充斥着 ChatGPT 的对话截图,并且出现了 “ChatGPT 概念股” 的说法。

中国的科技大厂们 “猛然醒悟”,纷纷开始就中国版 ChatGPT 表明态度:百度在 2 月 7 日官宣将在 3 月上线文心一言;腾讯在 2 月 9 日回应称 “在相关方向上已有布局,专项研究也在有序推进”;阿里传出了类 ChatGPT 应用的对话截图;京东、网易有道、科大讯飞、小米也先后发声将推出相关产品。

第三个阶段是文心一言上线后。

可能因为发布会上的录屏展示,百度的股价在文心一言发布当天即下跌 10%,一度成为互联网上的众嘲对象,即使李彦宏和百度 CTO 王海峰均在发布会上提前打了 “预防针”,直言模型目前 “训练不够充分”。

有趣的是其他科技大厂的态度。目前申请测试百度文心的用户已经百万,超过 10 家企业用户申请调用文心一言的企业版 API。如果说 ChatGPT 的走红只是唤醒了国内网民的好奇心,摆出了一副吃瓜群众的姿态,现在已然被彻底点燃了热情。但百度文心上线近 10 天后,并未有第二家企业官宣。

个中原因恐怕离不开 “功利” 二字。

在 ChatGPT 的方向被论证前,国内的大部分投资人和技术领袖并不敢冒险跟进,不考虑短期收益的只有少数派中的少数派;ChatGPT 爆红后,特别是 “ChatGPT 概念股” 出现后,中国版 ChatGPT 已经成为一种政治正确,大厂们的表态也就无可厚非;文心一言上线后则是另一个极端,在 “肉眼可见” 的技术差距面前,暂时收敛锋芒是否也是一种避开被舆论讨伐的选项?

“中国版 ChatGPT” 或喧嚣或冷静的背后,似乎还有另外一种解释:在用户心理阈值最高的时候,跟风放出消息不失为一种聪明的商业策略,而落实到产品上,终归还要结合现实需求。就像科大讯飞董事长刘庆峰的观点:AI 要兑现红利,标准之一就是有看得见摸得着的应用场景。

02 空间换时间的认知陷阱

至于 ChatGPT 类产品的商业空间,微软无疑是最佳的参考对象。

作为 OpenAI 的大股东,微软被中国网友们戏称为 “坐在副驾驶上狂飙”,尤其是在 ChatGPT 的商业应用上,微软可谓动作频频:1 月 17 日的公开活动上,微软 CEO 纳德拉表示,计划将 ChatGPT 整合进其所有产品;半个多月后,微软正式推出新版必应,将 ChatGPT 与搜索引擎融合;GPT-4 发布两天后,微软发布了新功能 Copilot,将用于 Word、PowerPoint、Excel、Outlook 等产品中,可自动生成 PPT、自动写文章……

为何国内企业并没有兵临城下的危机感?最常见的说法是 “空间换时间”,中文互联网的特殊性,为国内企业留下了充足的反应时间。譬如晚于 ChatGPT 三个半月诞生的文心一言,照旧抓住了大把的机会。诸如此类的说辞在某种程度上有其道理,却也存在一些不可小觑的认知陷阱。

比如中文语料库的问题。

在不少人的理解中,中文语料库是 ChatGPT 难以逾越的壁垒,李彦宏称 “文心一言是更适合中国市场的人工智能模型”,理由正是中文特殊的分词和语法结构。中文语料库的建设需要大量的人力、物力和财力投入,同时还需要考虑语料的质量、版权等问题,几乎是一个天然避风港。

可国内互联网巨头的 “数据隔离” 也是不争的事实,尽管在工信部的施压下,大厂们被迫 “拆墙”,但不同平台的数据仍然很难产生交流和总结,无形中增加了模型训练的难度。就连文心一言的图像生成都经被传出先将中文指令翻译成英文,再根据英文描述生成图像,中文语料的现状可见一斑。

再比如技术上的硬性门槛。

国内并不缺少媲美 GPT-3 的大模型,这也是很多企业自信可以开发出 ChatGPT 类应用的直接原因,然而算力资源、工程能力、模型迭代策略、调优机制等能力的缺失也是不争的事实。还是文心一言的例子,虽然有 ChatGPT 这个参考答案,迭代、调优的路还是要重新走一遍才行。

一个浅显的道理,OpenAI 在推出 ChatGPT 前,已经在大模型上默默耕耘了 4 年时间,期间不知道有多少次的试错。毕竟一个现象级产品诞生,往往是资源、基础技术、人才、产业需求等一系列因素的集大成,国内到底有多少家企业能够越过技术上的硬性门槛,目前还是一个未知数。

按照华西证券的测算,百度的文心一言想要达到 ChatGPT 目前的能力,需要补足的训练、推理和数据标注成本分别为 2.29 亿元、13.62 亿元、0.05 亿元,需要保持年均 16 亿元的投入。

倘若再算上维持正常运转的人力成本、训练模型的算力成本、存储数据的数据中心耗费,百度想要追平 OpenAI 需要付出相当庞大的投入,遑论其他缺少前期布局的企业。

就在百度们还在追赶 GPT-3.5 时,OpneAI 已经有条不紊的推出了功能更为强大的 GPT-4,并在 3 月 24 日宣布部分解除了 ChatGPT 无法联网的限制,正在推出 ChatGPT 插件,可以访问训练数据外的信息,增加一些特定功能,开始了从工具向平台的进化。

03 “追风者” 无缘 “星辰大海”

最糟糕的并不是做一个 “追赶者”,而是 “反应迟钝” 的追风者。

早在 2020 年的时候,OpenAI 就借着 GPT-3 一鸣惊人,随即在全球范围内拉开了一场大模型军备竞赛,国内的华为、智源、浪潮、阿里云、百度、腾讯等企业先后发布了自家的预训练大模型品,并不断从 NLP 延伸出了双语、CV、跨模态等大模型。

而后的一段日子里,来自中国的大模型覇榜各类榜单,学术论文如流水线般生产。一些研究人员以发论文为己任,鲜有人思考学术以外的价值;企业对大模型满怀信心,并试图推动产业落地中来变现。最终也仅仅止步于此,没有一家企业能创造性地越过大模型到 ChatGPT 的天堑。

有人在知乎上问道:阻碍国内团队研究 ChatGPT 这样产品的障碍有哪些,技术、钱还是领导力?OneFlow 创始人袁进辉的回答道出了问题的本质:“需要有远见且为理想而持之以恒的人。”

不可否认的是,“谈理想” 在国内的商业环境中多少有些感性且不切实际,甚至连相应的故事都是 “舶来品”:图灵奖得主 Hinton 潜心研究神经网络 50 多年;斯坦福的李飞飞教授花费 6 年时间创建了 ImageNet 数据集;OpenAI 最初被定义为非营利性人工智能组织,要向全世界公开分享他们的研究成果……

国内盛行的是另一种商业故事:张小龙在 2010 年带领一个不到 10 人的团队,用了不足 70 天的时间开发出了微信的第一个版本;出行大战中胜出的滴滴,曾用四个月的时间拉来了一万多名网约车司机;2013 年才立项测试外卖项目的美团,到了 2014 年就将外卖送到了全国 200 个城市……

问题在于,追逐风口、快速创新的打法到了人工智能时代是否依然奏效?不妨借用英伟达 CEO 黄仁勋的一个比喻:“每家公司都应该知道,未来的软件开发有点像炼丹,这是一个 MLOps 的过程。” 其中的 MLOps 可以翻译为 “人工智能研发运营体系”,涵盖开发、部署、交付验证三个必不可少的过程。

在中国版 ChatGPT 的研发中,国内的企业已然走了 “捷径”:比如 ChatGPT 最大的特点就是引入了人类反馈的强化学习(RLHF),即用人工标注的方式,不断地将结果去反馈给模型,让模型不断自我迭代。百度等企业后来也采用了 RLHF 模式,并辅以 “对话增强、有监督精调” 等机制,底层架构和技术路径都与 OpenAI 相似。

最危险的地方恰恰也在于此。

不少人将 ChatGPT 比作是移动互联网时代的 iPhone,意味着 ChatGPT 只是个开始,将有更多超出固有认知的新事物出现,可能是聊天机器人,可能是 “画图高手”,也可能是当前还想不到的应用。同时也预示着层出不穷的新风口,凡是风口,皆有虚实,一味跟着别人走路,总有踏空的时候。

李彦宏曾在 2021 年初的内部信中写道:“我们熬得过万丈孤独,藏得下星辰大海。” 冥冥中成了中国企业面对 ChatGPT 时的命运写照:熬不过万丈孤独,何谈星辰大海?

04 写在最后

中国版 ChatGPT 的故事还在继续,不排除有越来越多的相似产品上线,甚至出现 “百花齐放” 的局面。

需要警惕的是那些自诩为 “国产之光 “的追风者,聊天机器人的风口来临时,迅速整顿人马开发类似应用;AI 生图的热度起来后,快速组建团队抓住新的契机;而当新的风向标出现时,会再次调转方向...... 不愿意在底层技术上 “苦修”,注定要在风口里兜兜转转。

因为 “追赶者” 仍抱有理想、信念和希望,“追风者” 注定只会在风中盘旋,被风势裹挟。

The copyright of this article belongs to the original author/organization.

The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.

Like