上周，在 Sora 震飞 AI 圈之际，谷歌于同日 “悄悄” 发布了新一代人工智能大语言模型（LLM）Gemeni 1.5pro。
前有 Open AI 宣布开发新产品并推出 GPT 记忆功能，后有 Sora 重磅登场，虽然被 Open AI 抢了番位，但 Gemini 1.5 Pro 也不容小觑。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e505183d-d22d-4eac-889c-749333bd4cd7.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="831" height="623" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e505183d-d22d-4eac-889c-749333bd4cd7.png"/>
在一众 “杀招” 之外，Gemini 1.5 Pro 最亮眼的，还是在跨模态超长文本理解能力上实现的 “巨大飞跃”。据悉，Gemini 1.5 Pro 的能够稳定处理的信息量高达 100 万个 tokens，这相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。
科技网站 Every 的记者 Dan Shipper 在上周四测评了 Gemini Pro 1.5，与其共处一周后，他给出结论：该新一代大模型要比此前谷歌发布的所有型号要 “好得多”，“是一项重大成就”。
<h2>大 “杀器”：超长上下文窗口</h2>
在 Shipper 看来，Gemeni 1.5 pro 的 “重大” 主要缘于两点：
一是 Gemeni 1.5 pro 拥有 “史上最长” 上下文窗口。
上下文窗口（context window）是指语言模型在进行预测或生成文本时，所考虑的前一个词元（token）或文本片段的大小范围。
在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。上下文窗口越大，可以提供更丰富的语义信息，帮助模型据此预测或生成更连贯、准确的文本。
正如此前提及，Gemini 1.5 Pro 能够单次处理 100 万个 tokens，与之相比，GPT-4 Turbo 只能支持单次处理 12.8 万个 tokens。
更直观点，换算成汉字的话，100 万个 tokens 约等于 80 万个汉字，相当于 Gemini 1.5 Pro 能一次性处理一部红楼梦的信息量——几乎可以理解为无上限。
华尔街此前援引报道称，在 Gemini 1.5 Pro 发布前，全球公开可用的 LLM 中，最大的上下文窗口来自 Claude 2.1 的 20 万 tokens，Gemini 1.0 Pro 是 3.2 万 tokens——此次 Gemini 1.5 已在窗口长度上成功碾压所有大模型。
二是 Gemeni 1.5 pro 可以稳定处理整个上下文窗口。
通过测评，Shipper 发现 Gemeni 1.5 pro 在处理巨大任务量时仍表现出色，这和此前的型号相比是一个 “巨大飞跃”。
Shipper 表示，此前的 LLM 性能存在这样的缺陷：当输入的文本任务量接近其上下文窗口上限时，LLM 的性能就会大打折扣——甚至忽略部分内容或遗漏关键信息。
但 Gemeni 1.5 pro 不会出现这类情形。因其对上下文窗口进行了改进，使其更智能，意味着你无需搭建任何基础架构就能 “开封即用”。
<h2>首发测评实录</h2>
作为第一波上手测评 Gemeni 1.5 pro 的用户，Shipper 撰文详细记录了他对 Gemeni 1.5 pro 的测评，以及其与 GPT-4 的 “对照实验”。
1.文本理解和推理能力
Shipper 分别向 Gemeni 1.5 pro 和 GPT-4 提问了一本由 Chaim Potok 于 1967 年出版的小说《选民（The Chosen）》中的情节。
GPT-4 的第一个答案完全错误，随后 Shipper 上传了这本小说的纯文本全文，GPT-4 在检索到相应位置后给出了正解。
<figure style="text-align: center"><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b7d88be4-59fd-413e-9e5c-4060e6706257.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="310" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b7d88be4-59fd-413e-9e5c-4060e6706257.png"/></figure>
<figure style="text-align: center"><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9f160951-2b9e-44a9-b7f5-ad6e23a4425a.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="459" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9f160951-2b9e-44a9-b7f5-ad6e23a4425a.png"/></figure>
不过，由于上下文窗口过小，GPT-4 在后台执行检索代码时，将文本内容分称了若干个 “文本块”，再在其中检索用户提问对应内容——这也意味着，在回答这类问题时，GPT-4 有多智能无关紧要，重要的是 GPT-4 能不能检索到对应文本。
而 Gemeni 1.5 pro 可以一次性读完整本书，并提供了 GPT-4 无法提供的关键情节。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2e2fd90b-d2fd-478b-9cc9-961beeb10137.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="835" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2e2fd90b-d2fd-478b-9cc9-961beeb10137.png"/>
如果说之前你还对 “超长的上下文窗口” 这个概念一知半解，那么，这项 “对照实验” 就直观地呈现了上下文窗口的长度是如何帮助 Gemeni 1.5 pro 在文本理解和检索上 “吊打” GPT-4 的。
2.大型项目代码、文本生成能力
Shipper 指出，Gemeni 1.5 pro 还解锁了数百个新功能，这些功能难以用 ChatGPT 或自定义的 GPTs 来完成。
比如，Shipper 向 Gemeni 1.5 pro 询问，如果想要在现有代码库中集成 GPT-4，应该在哪里操作。Gemeni 1.5 pro 不仅在代码库中找到了正确的位置，还直接编写了集成所需的代码。
Shipper 表示：
<blockquote>
“这极大地提高了开发人员的生产力，尤其是在大型项目上。”
</blockquote>
为了检验 Gemeni 1.5 pro 的生成能力，Shipper 还要求 Gemeni 1.5 pro 给自己此前的文章增加一段 “轶事” 作为开头。
结果，Gemeni 1.5 pro 给出了一个 “近乎完美” 的文本段落，既充分理解了文章主旨，而且段落设计甚至颇具个人色彩——Shipper 称其内容 “来自我自己的浏览记录和文字品味”。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9b6de299-42f8-4764-b78b-edba169f2513.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="823" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9b6de299-42f8-4764-b78b-edba169f2513.png"/>
不过，这个测试也暴露了 Gemeni 1.5 pro 的缺陷——这则 “轶事” 后来被证实是虚构的。Shipper 对此表示：
<blockquote>
“Gemeni 1.5 pro 并不完美，你需要仔细检查它的工作成果。”
</blockquote>
此外，Shipper 还指出自己的测评中存在一些限制因素，有两点需要注意：
一是 Shipper 测评的是 Gemeni 1.5 pro 私人测试版本，后续版本表现可能因其高昂的成本而有所出入；
二是 Gemeni 1.5 pro 在实际运行中速度 “相当慢”，许多请求需要至少 1 分钟才能得到反馈。因此 Shipper 认为，Gemeni 1.5 pro 不适合作为目前 LLM 的直接替代品，更适合用来处理 ChatGPT 等大模型无法处理的繁重任务。
<h2>OpenAI 应该感到威胁了</h2>
纵览 Gemeni 1.5 pro 带来的数百项新功能，似乎所有都离不开我们最初提到的核心概念：上下文窗口。
因为只要上下文窗口规模足够大，那么无需再输入检索代码就能获得更准确、强大的结果。
从这个角度来说，Gemeni 1.5 pro 无疑是 Sora 之外对 AI 圈而言另一个 “王炸” 级别的存在。Shipper 在一年前就曾表示：
<blockquote>
“Gemini 就是最好的例子。凭借其大型上下文窗口，您收集的所有个人数据都触手可及，可以在您需要的任何任务中在正确的位置、正确的时间部署——个人数据越多越好，即使是杂乱无章的数据。”
</blockquote>
作为竞争对手的 OpenAI，仍需要迎头赶上。Shipper 认为，“检索” 将成为 LLM 的组成部分，该功能在提供数据库/数据存储、分块/搜索信息方面都起着重要的作用。
虽然当上下文窗口足够大时，检索功能的价值可能会有所削弱，因为用户可以输入所有请求。但 Shipper 仍认为，从长远角度来看，检索功能仍然十分重要。
和手机内存一个道理。就算以后，100 万个 tokens 已成常态，用户依然会觉得 “不够用”。届时，检索的价值不外乎从 “百里挑一” 演变成了 “万里挑一”。

被 Sora 光芒掩盖的巨大飞跃！