转发。
—————
黑夜之睛滚雪球
8-18 11:42 来自 iPhone 12 Pro Max
近期大模型的一些思考 (转
1 王小川 6 月去了硅谷,带回来的信息是国外大模型技术从领先半步到领先一步,国内大模型应用从领先半步到领先三步。说明中美技术差距还是很大的,过去预测是 6 个月,现在看要 1 年左右。国外的大模型行业应用以甲方为主,例如在金融行业,摩根大通有 1500 数据科学家在做大模型在金融行业的应用。中国大模型应用以乙方和创业公司为主,甲方的技术团队在大模型领域还是缺人才,缺算力,更多依靠乙方 (大型科技企业和创业公司)
2 meta 的开源大模型 LLaMA(羊驼) 家族正在成为主流开源模型 (性价比高),但是在 NLU 方面,效果还是落后于 OpenAl 的 GPT 系列。行业大模型是个大市场,但是都是处于探索阶段,现在是取得了比原来传统模型好的效果,但是达不到类似 GPT 的智力涌现的效果,可以说行业大模型还有很长的路要走,至少要一年左右,行业大模型的商业价值涌现要到 2024 年
3 OpenAl 发现,在 GPT4.0 之后,仅仅增加的数据和训练无法提升模型的准确度,也无法带来新的智力进化,GPT 未来需要在算法上进行突破 (这也给了行业追赶的时间)。OpenAl 在工程上进行大量投入,在建立基于 1000 万张 GPU 卡的超级大模型 (英伟达 2023 年的 GPU 产量 165 万张,高端卡 20 万张)。如果 OPENAI 的这个目标实现了,会不会带来意外的惊喜,超级大模型会不会成为超级人工智能大脑来控制一切?(类似于终结者中的天网)
4 美国很多大企业在同时使用 GPT 大模型和其他开源大模型,目前从效果上看还是 GPT 效果要好很多,GPT3.0 之后不再开源,其他大模型何时可以达到 GPT 的效果还是未知,中国的大模型预计 2024 年可以达到 GPT4.0 的效果 (乐观预测)
5 全世界 AI 前 2000 的人才,以中美为主,美国是中国的 2 倍到 3 倍,美国的大模型人才集中在三大高科技企业 google,meta,微软,其中 Google 是微软和 meta 总和的近两倍,中国集中在高校,清华,浙大,北大,中科大等,其中清华最多,是浙大和北大的总和,阿里是中国企业中拥有项级 A 人才最多的企业,排行第五,仅落后干中科大
6 大模型领域的商业价值,唯一确定的领域是算力,未来算力也是核心投资领域之一。其他应用的商业价值主要集中在生物科学的蛋白质结构预测 (alphafold) 和程序员辅助 copilot(Codex) 等,其他的商业领域还在摸索中,智能客服是个确定领域,但是商业价值不明显,texttolmage,是个确定领域,带来的主要是效率提升,离商业价值的直接变现还有距离。大模型商业变现有个问题,大模型作为生产环节的一部分,间接参与生产,主要作用还是效率的提升,很难从 ROI 的角度看到其明确的可衡量的价值。未来还需要在更多的业务领域中,挖掘大模型的商业价值,预期要 1 年左右,才可以明确。未来有可能需要软硬件结合 (类似于现在的工厂的 AI 质检),参与社会化大生产中的某个环节 (体育新闻撰写,内容推荐引擎,医疗图像诊断等具体分工) 或者单独依靠计算 (商业模型计算等) 来体现其价值,应用的路还有些长
7 大模型的惊喜是带来智力涌现,离我们预期的先知越来越接近。未来人类主要的任务是从大模型里提取出智力,协助我们进行决策,其中领域大模型的 Agent 和通用大模型的 Prompt 能力显得很重要。领域数据会成为大模型领域的另外一个核心竞争力。