周鸿祎路演聊 AI,分析师、基金经理疯狂涌入,电话会被挤爆
进门财经路演工具在 chatgpt 概念板块上引起了极大的关注,许多券商、公募、私募、资管和保险等机构参加了此次路演。其中,民生证券邀请了 360 的周鸿祎作为嘉宾。周表示,场景和数据是 AI 技术的关键,算力不是最关键的问题。此外,数据的质量对于训练 AI 技术也至关重要,需要大量的知识量数据来训练,而聊天语料少于 5%。搜索引擎可以优化数据抓取能力,进行工程化的索引和人工标注的调优。AI 提升各个产业的能力是生产力工具,可以为各个行业赋能。最后,周还回答了一个奇怪的问题:小孩长大后应该学习什么专业?他表示,应该学习符合自己兴趣和能力的专业。
大家好,昨夜的机构路演,挤爆了。券商分析师,基金经理都在听。
19 日晚间,圈内最大的事件,就是大家都在听 AI 的电话会会议,直接把 app 干爆了,投资者涌入进门财经券商路演直播间,一度导致进门财经 APP 宕机。据了解,进门财经定位是专业投资机构的路演工具,一般是券商、公募、私募、资管、保险等等机构的人用。可以想象,现在的市场热点全在 chatgpt 概念板块上。
民生证券还请来了 360 红衣教主的周鸿祎。据说参会人数超过千人!
泰勒找来了这场路演纪要。其中第三个问题把泰勒笑喷了,有人问周鸿祎,以后小孩长大了应该会学什么专业吗?周回答:这个问题很奇怪,该学什么专业学什么专业啊
Q:上游哪些场景很关键?
A:算力不是最关键的问题,场景和数据是关键。我们二线队伍,账上 200 多亿人民币,之前国家搞了很多超算中心,没事情干,现在发现配了 GPU 就有东西看。Transformer 算法是谷歌发明的,实现靠的是大力出奇迹,几千亿参数。这是个工程问题。从 1 到 n中国能做的很快,openai中国做的很快,谷歌和 meta 会很尴尬。Meta 开源了他的大语言模型,技术的 knowhow 会快速传播。关键的东西,第一是数据,有知识量的数据做训练,聊天的语料不包括知识 chatgpt 中文语料占了不到 5%,大量知识在外文期刊里面,只用中文训练语料是不够的。很多机构说用了很大的参数,但是不敢拿出来说,大概率是数据不够。还需要人类的枪花反馈学习和调优,激发 GPT 理解人类的查询意图,这个是问题的关键。还有个很重要的是场景,微软放弃了自己的小娜的研究,全力帮助 AI,在场景化上可以让大家看到人工智能有什么场景。搜索引擎一直在做 NLP,自然语言处理,大家都在跟踪使用,搜索引擎在获取海量数据方面优势。我们和百度抓取的网页在千亿万亿的规模,需要清洗辣鸡网页进行工程化的索引。我们搜索引擎要抓取英文的维基百科和语料,对于我们是现成的。初创公司可能会卡在工程化的初始阶段,这个对工程化的要求比较高。还有人工标注的调优,微软做了很多贡献,搜索引擎帮助很大。360 搜索份额占比 30%,百度占比 60%。微软帮助 openai 占据了很多的场景,下一步可能会把 teams(视频会议)等 TO B 的场景做结合。
Q:以后会不会很多行业不存在了,机器把人替代了?
A:我不是很认同。我认为这是个洗牌的机会,如果你不重视他,抓上这班车就不行。我们企业内部要起每个部门都用 AI 提升我们的能力,用 AI 的大语言模型赋能,这样会成为我们手里有力的竞争武器。GPT4 的知识能力和考试的能力已经超越了每一个地球人,GPT 可能是用 3.5 和 4 互相训练。我们也考虑过这种,用 bert 这种理解性的模型进行反馈和奖励。这是个生产力工具,是能给各个产业赋能的,关键是你需要找到相应的场景和场景化的能力。
Q:以后小孩长大了应该会学什么专业吗?
A:这个问题很奇怪,该学什么专业学什么专业啊,对 prompt 很敏感。
Q:关于我们 360,行业现在是巨头扎堆,360 的核心优势?
A:第一个问题已经讲了,第一是数据的能力,不能光用中文的数据,要有全球数据的抓取能力,要能做到对垃圾的判别和清洗。用户上亿次搜索的数据,我们和百度有知识问答的栏目,这种涉及用户的真实的使用场景来进行训练。数据我们有优势。GPT2 和 bert 是开源的,真要做到上千亿上万亿的模型,几千张 GPU 的显卡,几个 T 的数据进行几个亿的训练,这个对工程化要求很高。第三,搜索引擎我们市场份额是百度的一半。搜索引擎不具备生成性,不会编出林黛玉倒拔垂杨柳的故事,生成式 AI 会无中生有,如果编的结果是不对的普通人很难验证就很麻烦。我们做泛化,泛化的知识图谱的搜索,前面的十条二十条结果给大语言模型做提炼,这样就不会让生成式 AI 无中生有。我们搜索引擎 dau 有一个亿,大语言模型可以做及时的翻译和推荐,我们这种场景可以很好的让用户体验到人工智能的场景,形成商业化的闭环。我在政协叫了个提案,大家忽视的是这个东西真正的破圈了。之前无论是阿尔法狗和蛋白质折叠,离生活比较远。得益于微软工程化产品化的能力。一方面要打造核心技术,全方位最大化的调用公司的资源。大模型的方向已经出来了,要做到大力出奇迹,500 亿到 1000 亿的参数训练,用有质量的语料。谷歌现在很尴尬,模型做出来了商业化的场景可能也被微软抢完了。微软专注场景和产品化的结合,openai 专注技术,这样能实现很好的效果。
Q:360 的场景和应用?
A:并行的。360 也在做 TO B,也是我们很重视的机会。我们的安全大脑帮助企业抵御攻击。我们的机会是,中国企业不接受公有云,希望有个私有化部署的 GPT 和数据。未来每个企业可能有自己的大脑。只做垂直行业的训练肯定是不行的(说的就是科大讯飞)。我们离 GPT 还有 24 个月到 36 个月的差距,第一个版本能做到几百亿参数的模型的时候,做到 GPT 的六成的功力,做到企业内部是够用了。TO B 和 TO G 端是有大量的机会的。面对中小企业端,我们打算推出生成式 AI 的办公套件和应用。Openai 找了 100 家垂直的 SaaS 公司,会专门训练垂类的应用。我们这两年很关注sme(中小企业),中小企业对企业数字化的要求功能明确,少花钱使用简单,SaaS 更合适,我们去年推面向企业的 SaaS 云服务,一年 120 万家客户。我们浏览器国内份额最大,做了个 SaaS 商店,我们会找合作伙伴做一些场景。TO C 我们有大量的使用场景,浏览器加上 AI 插件变成 AI 个人助力。TO B,TO SME 和 TO C 三十多个场景使用不同的能力,尽快占据用户的使用场景。
Q:我们会和百度一样芯片模型全覆盖的平台吗?
A:我们肯定不是这个方向。谷歌自己搞过 GPU,也就自己用。训练最好还是用 A100 和 A800,框架没必要自己搞,自己搞个框架还要花精力和别的芯片适配。微软这么强大微软只做应用,openai 用的框架也是用的行业通用框架。我不认为产业链全都做了是好事。我们坚定的沿着 transformer 框架把模型干到千亿。首先是要占据应用场景。
Q:百度内测效果不错,对于 360 未来应用的推广是不是更有信心了?
A:百度搜索一哥肯定能做好的,微软的搜索份额比谷歌要小,可以放开手要做创新。百度为什么做一个聊天机器人我不理解,我要做的话可能更愿意和搜索相结合。国内我不认为会和美国一样一支独大,头条和其他互联网厂商大家不会相互支持,会互相竞争,360 啊微博啊 B 站啊知乎啊小红书啊美团滴滴等等,他也不敢用巨头的服务,肯定要自己搞。还是希望在这个模型上做出几个超级应用。有应用有场景的公司加上模型会有价值。
Q:中国电信布局了企业版的 chatgpt,对这个的关注提升到了国家战略的高度,国家的重视会对行业产生什么影响?
A:国家队干这个事肯定不是坏事,互联网上大家都做过。从目前拥有的数据和团队能力来看,民营企业和国企都在一个起跑线上。只要不是只要牌照才能搞大语言模型,这样都有机会。GPT 是个生产力工具,这将决定未来国际竞争当中的国运。美国人对于大语言模型也有政治正确的要求。
Q:中国和美国比有 24 到 36 个月的时间差?
A:不是和微软比。GPT4 验证了我们很多观点,他的参数量我觉得应该到了万亿,训练的数据比原来大了 5 到 10 倍。人类反馈强化学习不再是十万组,而是几十万组的答案对,有很强的智能的能力。目前来看多模态是胜过国内的能力的。国内的图像识别还是传统的图像识别,openai 把所有都看做序列,图像也是序列,他能把图像组成部分的关系和逻辑相关性总结出来。他在阅读文档上的能力国内做不到。他能支持 5 万字的输入,表示他的深度记忆能力越强,对上下文的理解越好。GPT3.5 我们认为国内和他的差距 18 个月,gpt4 是 24 个月。云谈了这么多年,企业上云的比例也还不高。这比光刻机的难度小多了。
Q:怎么看 GPT4,会不会取代操作系统成为战略级的入口?
A:这是两个概念,需要 host 一个应用需要操作系统,操作系统还是需要的。人工智能没有突破之前大数据给企业用不好用。Gpt 相当于是发电厂,这个比喻比较贴切。纯做 GPT 的公司有点来不及,要么是有 GPT 丰厚的场景。场景越大爆发性就越大,如果场景很小,就做了个虚拟人挂个 GPT 跟人对话,这个场景就很小。场景未来可能有多家服务提供商。
Q:场景是我们非常关注的点,特斯拉的机器人也是爆款,多模态和机器人的关系?人形机器人是终极目标吗?
A:我不这么认为。不考虑机器人的外形,音响之类的用自然语言和人交流这关就是过了。Gpt 能否处理好机械手臂,寻找空间定位也是,出了 GPT 之后传统的做语言识别的图像识别的就有问题了。人形机器人有个最大的问题,机械手臂抬起的力量,这和人工智能没有关系。如果机器人手里拿不了太重的东西,这可能会成为妨碍。自动驾驶汽车也是个机器人,只不过长了 4 个轮子。GPT 的大语言都可以赋能。你们和智能音箱聊过天,聊两句就能知道他是个滞胀,gpt 肯定通过了图灵训练。橡胶娃娃也是仿真机器人。
Q:GPT4 在物联网终端的广泛应用是大趋势了,边缘计算的需求?
A:这跟边缘计算有什么关系呢?构不成边缘计算的节点。真正的能力都在云端,运算都在云端。
本文作者:泰勒,来源:中国基金报,原文标题:《今晚,爆了!分析师、基金经理疯狂涌入!“马英九将赴大陆”!热搜也爆了:张兰家族信托被击穿!》