谷歌 PaLM 2 细节曝光:3.6 万亿 token,3400 亿参数
谷歌上周发布的大型语言模型 PaLM 2 使用的训练数据几乎是其前身的五倍,使其能够执行更高级的编码、数学和创意写作任务。
谷歌最新大语言模型PaLM 2,更细节内幕被曝出来了!
据 CNBC 爆料,训练它所用到的 token 数量多达3.6 万亿。
这是什么概念?
要知道,在去年谷歌发布 PaLM 时,训练 token 的数量也仅为 7800 亿。
四舍五入算下来,PaLM 2 足足是它前身的近 5 倍!
(token 本质是字符串,是训练大语言模型的关键,可以教会模型预测序列中出现的下一个单词。)
不仅如此,当时谷歌发布 PaLM 2 时,只是提到 “新模型比以前的 LLM 更小”。
而内部文件则是将具体数值爆料了出来——3400 亿个参数(初代 PaLM 是 5400 亿)。
这表明,谷歌通过技术 “buff 加持”,在参数量更小的情况下,让模型可以更高效地完成更复杂的任务。
虽然在已经维持了数月的 AIGC 大战中,谷歌一直 “全军出击”,但对于训练数据的大小或其他细节信息,却是遮遮掩掩的态度。
而随着这次内部文档的曝光,也让我们对谷歌最 in 大语言模型有了进一步的了解。
PaLM 2 要在广告上发力了
关于谷歌上周发布 PaLM 2 的能力,我们就不再详细的赘述(可点击此处了解详情),简单总结下来就是:
-
接受了 100 多种语言的训练,在语言理解、生成和翻译上的能力更强,更加擅长常识推理、数学逻辑分析。
-
数据集中有海量论文和网页,其中包含非常多数学表达式。
-
支持 20 种编程语言,如 Python、JavaScript 等常用语言。
-
推出了四种不同 size:“壁虎” 版、“水獭” 版、“野牛” 版和 “独角兽” 版(规模依次增大)。
至于使用方面,谷歌在发布会中就已经介绍说有超过 25 个产品和应用接入了 PaLM 2 的能力。
具体表现形式是 Duet AI,可以理解为对标微软 365 Copilot 的一款产品;在现场也展示了在 Gmail、Google Docs、Google Sheets 中应用的能力。
而现在,CNBC 从谷歌内部文件中挖出了其在 PaLM 2 应用的更多计划——进军广告界。
根据这份内部文件,谷歌内部的某些团队现在计划使用 PaLM 2 驱动的工具,允许广告商生成自己的媒体资产,并为 YouTube 创作者推荐视频。
谷歌也一直在为 YouTube 的青少年内容测试 PaLM 2,比如标题和描述。
谷歌在经历了近 20 年的快速发展后,现在已然陷入了多季度收入增长缓慢的 “泥潭”。
也由于全球经济大环境等原因,广告商们也一直在在线营销预算中挣扎。
具体到谷歌,今年大多数行业的付费搜索广告转化率都有所下降。
而这份内部文件所透露出来的信号,便是谷歌希望抓住 AIGC 这根救命稻草,希望使用生成式 AI 产品来增加支出,用来增加收入并提高利润率。
据文件显示,AI 驱动的客户支持策略可能会在 100 多种谷歌产品上运行,包括 Google Play 商店、Gmail、Android 搜索和地图等。
训练数据缺乏透明度,越发被热议
不过话说回来,包括谷歌在内,纵观大多数大语言模型玩家,一个较为明显的现象就是:
对模型、数据等细节保密。
这也是 CNBC 直接挑明的一个观点。
虽然很多公司都表示,这是因为业务竞争所导致的,但研究界却不这么认为。
在他们看来,随着 AIGC 大战的持续升温,模型、数据等需要更高的透明度。
而与之相关的话题热度也是越发的激烈。
例如谷歌 Research 高级科学家 El Mahdi El Mhamdi 便于二月份辞职,此举背后的原因,正是因为他觉得公司缺乏透明度。
无独有偶,就在 OpenAI CEO Sam Altman 参与听证会期间,便 “反向” 主动提出立法者进行监管:
如果这项技术出了问题,那就可能会是大问题……我们希望合作,防止这种情况发生。
截至发稿,对于 CNBC 所爆料的诸多内容,谷歌方面暂未做出回应。
本文作者:金磊,来源:量子位,原文标题:《谷歌 PaLM 2 细节曝光:3.6 万亿 token,3400 亿参数》