“反复横跳” 马斯克也要做大模型了?
媒体报道称,尽管马斯克刚刚签署公开信呼吁暂停先进人工智能研究六个月。但事实上,他却在 “暗中” 推进新的生成式人工智能项目,并为此购买了上万个 GPU。
前脚刚刚呼吁暂停 AI 开发至少 6 个月,后脚马上 “暗中” 购买上万个 GPU 推进 AIGC 项目,“整活王” 马斯克又搞事情了。
据 Business Insider 当地时间 4 月 11 日报道,两位知情人士透露,尽管马斯克此前刚刚签署公开信。但事实上,他却在 “暗中” 推进新的生成式人工智能(AIGC)项目,并为此购买了上万个 GPU(图形处理器)。
据 Business Insider 消息,这 1 万显卡是买给推特的,推特版 GPT已在准备中,而且推特本身就拥有海量数据,存在一定优势,该项目涉及创建一个生成式人工智能,推特将根据自己的海量数据进行训练。
至于推特 GPT 究竟作用在何处,市场人士有两种猜测:
其一,改进搜索。
因为马斯克曾抱怨过这一功能,甚至还聘请过著名 iPhone 黑客 George Hotz 进行为期三个月的修复。不过似乎他和马斯克的 “气场不和”,不仅曾经拒绝了特斯拉的 offer 邀请,在推特本来说好的三个月,也只呆了一个月就走了。
其二,可能是广告营销。
广告是社交媒体的支柱,马斯克在收购推特之后搞了很多新政策,不少广告商直接削减支出或干脆不合作了,导致光是推特去年 12 月的收入就比同期下降了约 40%。
而如果有了大模型来做生成式 AI 创作,无论是设计素材还是提供 idea,都可能会提高推特在广告营销方面的效率和收益。
马斯克与 OpenAI 的爱恨情仇
今年 3 月,在 GPT-3.5 迭代到 GPT-4,两个月就获得 1 亿活跃用户后,马斯克等科技圈大佬带头泼下冷水,他们发布了一封联名公开信,呼吁所有 AI 实验室立即暂停训练比 GPT-4 更强大的 AI 系统至少 6 个月。
而一众大佬的叫停理由是:“希望暂停研发比 GPT-4 更强大的 AI 至少 6 个月,AI 可能对社会和人类构成潜在风险;近期各人工智能实验室陷入了失控的研发竞争,如果不能立即暂停,呼吁政府可以介入。
现在问题就来了,前脚刚刚呼吁暂停研发,后脚自己马上就动手搞了,为什么马斯克态度如此反复?
据媒体报道,实际上,马斯克反对的可能不是 AI,而是 OpenAI 和 GPT。
据新兴媒体 Semafor 透露,马斯克与 OpenAI 的不和更多是出于个人原因。2018 年,马斯克告诉 OpenAI 的联合创始人山姆·奥特曼,该实验室落后于谷歌太多。马斯克建议自己应该是经营公司的人,奥特曼和 OpenAI 的其他创始人拒绝了这一提议,权力斗争导致马斯克离开 OpenAI。
不过美国《财富》杂志当时报道称,离开的原因是因为马斯克虽然支持人工智能,但特斯拉智能驾驶技术与 OpenAI 之间有 “潜在利益冲突”。
在公司创立之初,马斯克承诺向 OpenA 提供大约 10 亿美元,而据 Semafor 的报道,该资助在他离开后就停止了。
此外,自 ChatGPT 诞生以来,马斯克也没少"针对"OpenAI。
例如其在推特上曾表示,“我捐 1 亿美金成立的非营利组织怎么就变成一个 300 亿市值的营利性公司了呢?如果这是合法的,为什么其他人不这样做?”
此外,在过去 OpenAI 是可以使用推特数据进行 AI 训练的,但 ChatGPT 发布的第 5 天,马斯克就下令暂停了这个权限。
算力需求将持续爆发
吃瓜归吃瓜,最后我们重点再来聊一下算力的问题。
此次马斯克购买的 1 万张 GPU 大概是个什么概念?事实上,特斯拉最强超算 Dojo 也没有这么多,Dojo 在 2022 年升级后公布的数据是 7360 块 A100,虽然这次买的什么型号还不清楚,但光从数量来说也着实不少。
另外,据 ARKInvest 预测,ChatGPT-4 参数量最高达 15000 亿个,由于参数量与算力需求间存在正比关系,所以可推算 GPT-4 算力需求最高达到 31271 PFlop/s-day。
浙商证券表示,与此同时,国内外厂商加速布局大模型,其参数量均达到千亿级别,同步带动算力需求爆发式增长。
华安证券还提到,类 chatGPT 大模型带来的算力增长,毋庸置疑,但算力的需求,不止局限于模型的投资初期,随着 GPTAPI 的开放、下游应用多模态的成熟,对于的大模型的推理算力需求进一步提升。即在模型不断更迭训练中,算力需求提升;在模型应用推理中,算力需求进一步提升。由此,整个算力需求一如互联网时期的流量需求,持续爆发。
其表示,整个大模型的算力需求包括训练端与推理端。具体来看:首先是训练端:算力需求,与模型参数、训练数据集规模正相关。
其表示,未来的训练端算力需求将是下述三大因素的乘积。
1) 参数规模。也即随着 GPT 3 向更多参数的 GPT4、5 等发展。
2) 训练集规模。
3) 投入大模型的企业增长。国内包括华为、百度、阿里巴巴、腾讯、字节等互联网巨头以及更多加入大模型研发的企业。
而在推理端:算力需求与模型参数数量、平均序列长度、并发需求量正相关。其表示,多模态之下,图片、视频生成需求的提升,在公式中将会增加平均序列长度,同时随着并发需求的增长,整个推理算力需求大幅提升。同时 chatgpt 应用进一步丰富,在推理端的算力需求持续提升,或将远远超过训练阶段的算力需求。