和 Gemeni 1.5 pro 在一起的第一周:一次处理 80 万汉字!强过 GPT4?

Wallstreetcn
2024.02.27 07:58
portai
I'm PortAI, I can summarize articles.

被 Sora 光芒掩盖的巨大飞跃!

上周,在 Sora 震飞 AI 圈之际,谷歌于同日 “悄悄” 发布了新一代人工智能大语言模型(LLM)Gemeni 1.5pro。

前有 Open AI 宣布开发新产品并推出 GPT 记忆功能,后有 Sora 重磅登场,虽然被 Open AI 抢了番位,但 Gemini 1.5 Pro 也不容小觑。

在一众 “杀招” 之外,Gemini 1.5 Pro 最亮眼的,还是在跨模态超长文本理解能力上实现的 “巨大飞跃”。据悉,Gemini 1.5 Pro 的能够稳定处理的信息量高达 100 万个 tokens,这相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。

科技网站 Every 的记者 Dan Shipper 在上周四测评了 Gemini Pro 1.5,与其共处一周后,他给出结论:该新一代大模型要比此前谷歌发布的所有型号要 “好得多”,“是一项重大成就”。

大 “杀器”:超长上下文窗口

在 Shipper 看来,Gemeni 1.5 pro 的 “重大” 主要缘于两点:

一是 Gemeni 1.5 pro 拥有 “史上最长” 上下文窗口。

上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。

在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。上下文窗口越大,可以提供更丰富的语义信息,帮助模型据此预测或生成更连贯、准确的文本。

正如此前提及,Gemini 1.5 Pro 能够单次处理 100 万个 tokens,与之相比,GPT-4 Turbo 只能支持单次处理 12.8 万个 tokens。

更直观点,换算成汉字的话,100 万个 tokens 约等于 80 万个汉字,相当于 Gemini 1.5 Pro 能一次性处理一部红楼梦的信息量——几乎可以理解为无上限。

华尔街此前援引报道称,在 Gemini 1.5 Pro 发布前,全球公开可用的 LLM 中,最大的上下文窗口来自 Claude 2.1 的 20 万 tokens,Gemini 1.0 Pro 是 3.2 万 tokens——此次 Gemini 1.5 已在窗口长度上成功碾压所有大模型。

二是 Gemeni 1.5 pro 可以稳定处理整个上下文窗口。

通过测评,Shipper 发现 Gemeni 1.5 pro 在处理巨大任务量时仍表现出色,这和此前的型号相比是一个 “巨大飞跃”。

Shipper 表示,此前的 LLM 性能存在这样的缺陷:当输入的文本任务量接近其上下文窗口上限时,LLM 的性能就会大打折扣——甚至忽略部分内容或遗漏关键信息。

但 Gemeni 1.5 pro 不会出现这类情形。因其对上下文窗口进行了改进,使其更智能,意味着你无需搭建任何基础架构就能 “开封即用”。

首发测评实录

作为第一波上手测评 Gemeni 1.5 pro 的用户,Shipper 撰文详细记录了他对 Gemeni 1.5 pro 的测评,以及其与 GPT-4 的 “对照实验”。

1.文本理解和推理能力

Shipper 分别向 Gemeni 1.5 pro 和 GPT-4 提问了一本由 Chaim Potok 于 1967 年出版的小说《选民(The Chosen)》中的情节。

GPT-4 的第一个答案完全错误,随后 Shipper 上传了这本小说的纯文本全文,GPT-4 在检索到相应位置后给出了正解。

不过,由于上下文窗口过小,GPT-4 在后台执行检索代码时,将文本内容分称了若干个 “文本块”,再在其中检索用户提问对应内容——这也意味着,在回答这类问题时,GPT-4 有多智能无关紧要,重要的是 GPT-4 能不能检索到对应文本。

而 Gemeni 1.5 pro 可以一次性读完整本书,并提供了 GPT-4 无法提供的关键情节。

如果说之前你还对 “超长的上下文窗口” 这个概念一知半解,那么,这项 “对照实验” 就直观地呈现了上下文窗口的长度是如何帮助 Gemeni 1.5 pro 在文本理解和检索上 “吊打” GPT-4 的。

2.大型项目代码、文本生成能力

Shipper 指出,Gemeni 1.5 pro 还解锁了数百个新功能,这些功能难以用 ChatGPT 或自定义的 GPTs 来完成。

比如,Shipper 向 Gemeni 1.5 pro 询问,如果想要在现有代码库中集成 GPT-4,应该在哪里操作。Gemeni 1.5 pro 不仅在代码库中找到了正确的位置,还直接编写了集成所需的代码。

Shipper 表示:

“这极大地提高了开发人员的生产力,尤其是在大型项目上。”

为了检验 Gemeni 1.5 pro 的生成能力,Shipper 还要求 Gemeni 1.5 pro 给自己此前的文章增加一段 “轶事” 作为开头。

结果,Gemeni 1.5 pro 给出了一个 “近乎完美” 的文本段落,既充分理解了文章主旨,而且段落设计甚至颇具个人色彩——Shipper 称其内容 “来自我自己的浏览记录和文字品味”。

不过,这个测试也暴露了 Gemeni 1.5 pro 的缺陷——这则 “轶事” 后来被证实是虚构的。Shipper 对此表示:

“Gemeni 1.5 pro 并不完美,你需要仔细检查它的工作成果。”

此外,Shipper 还指出自己的测评中存在一些限制因素,有两点需要注意:

一是 Shipper 测评的是 Gemeni 1.5 pro 私人测试版本,后续版本表现可能因其高昂的成本而有所出入;

二是 Gemeni 1.5 pro 在实际运行中速度 “相当慢”,许多请求需要至少 1 分钟才能得到反馈。因此 Shipper 认为,Gemeni 1.5 pro 不适合作为目前 LLM 的直接替代品,更适合用来处理 ChatGPT 等大模型无法处理的繁重任务。

OpenAI 应该感到威胁了

纵览 Gemeni 1.5 pro 带来的数百项新功能,似乎所有都离不开我们最初提到的核心概念:上下文窗口。

因为只要上下文窗口规模足够大,那么无需再输入检索代码就能获得更准确、强大的结果。

从这个角度来说,Gemeni 1.5 pro 无疑是 Sora 之外对 AI 圈而言另一个 “王炸” 级别的存在。Shipper 在一年前就曾表示:

“Gemini 就是最好的例子。凭借其大型上下文窗口,您收集的所有个人数据都触手可及,可以在您需要的任何任务中在正确的位置、正确的时间部署——个人数据越多越好,即使是杂乱无章的数据。”

作为竞争对手的 OpenAI,仍需要迎头赶上。Shipper 认为,“检索” 将成为 LLM 的组成部分,该功能在提供数据库/数据存储、分块/搜索信息方面都起着重要的作用。

虽然当上下文窗口足够大时,检索功能的价值可能会有所削弱,因为用户可以输入所有请求。但 Shipper 仍认为,从长远角度来看,检索功能仍然十分重要。

和手机内存一个道理。就算以后,100 万个 tokens 已成常态,用户依然会觉得 “不够用”。届时,检索的价值不外乎从 “百里挑一” 演变成了 “万里挑一”。