和 Gemeni 1.5 pro 在一起的第一週:一次處理 80 萬漢字!強過 GPT4?

華爾街見聞
2024.02.27 07:58
portai
I'm PortAI, I can summarize articles.

被 Sora 光芒掩蓋的巨大飛躍!

上週,在 Sora 震飛 AI 圈之際,谷歌於同日 “悄悄” 發佈了新一代人工智能大語言模型(LLM)Gemeni 1.5pro。

前有 Open AI 宣佈開發新產品並推出 GPT 記憶功能,後有 Sora 重磅登場,雖然被 Open AI 搶了番位,但 Gemini 1.5 Pro 也不容小覷。

在一眾 “殺招” 之外,Gemini 1.5 Pro 最亮眼的,還是在跨模態超長文本理解能力上實現的 “巨大飛躍”。據悉,Gemini 1.5 Pro 的能夠穩定處理的信息量高達 100 萬個 tokens,這相當於 1 小時的視頻、11 小時的音頻、超過 3 萬行代碼或 70 萬個單詞。

科技網站 Every 的記者 Dan Shipper 在上週四測評了 Gemini Pro 1.5,與其共處一週後,他給出結論:該新一代大模型要比此前谷歌發佈的所有型號要 “好得多”,“是一項重大成就”。

大 “殺器”:超長上下文窗口

在 Shipper 看來,Gemeni 1.5 pro 的 “重大” 主要緣於兩點:

一是 Gemeni 1.5 pro 擁有 “史上最長” 上下文窗口。

上下文窗口(context window)是指語言模型在進行預測或生成文本時,所考慮的前一個詞元(token)或文本片段的大小範圍。

在語言模型中,上下文窗口對於理解和生成與特定上下文相關的文本至關重要。上下文窗口越大,可以提供更豐富的語義信息,幫助模型據此預測或生成更連貫、準確的文本。

正如此前提及,Gemini 1.5 Pro 能夠單次處理 100 萬個 tokens,與之相比,GPT-4 Turbo 只能支持單次處理 12.8 萬個 tokens。

更直觀點,換算成漢字的話,100 萬個 tokens 約等於 80 萬個漢字,相當於 Gemini 1.5 Pro 能一次性處理一部紅樓夢的信息量——幾乎可以理解為無上限。

華爾街此前援引報道稱,在 Gemini 1.5 Pro 發佈前,全球公開可用的 LLM 中,最大的上下文窗口來自 Claude 2.1 的 20 萬 tokens,Gemini 1.0 Pro 是 3.2 萬 tokens——此次 Gemini 1.5 已在窗口長度上成功碾壓所有大模型。

二是 Gemeni 1.5 pro 可以穩定處理整個上下文窗口。

通過測評,Shipper 發現 Gemeni 1.5 pro 在處理巨大任務量時仍表現出色,這和此前的型號相比是一個 “巨大飛躍”。

Shipper 表示,此前的 LLM 性能存在這樣的缺陷:當輸入的文本任務量接近其上下文窗口上限時,LLM 的性能就會大打折扣——甚至忽略部分內容或遺漏關鍵信息。

但 Gemeni 1.5 pro 不會出現這類情形。因其對上下文窗口進行了改進,使其更智能,意味着你無需搭建任何基礎架構就能 “開封即用”。

首發測評實錄

作為第一波上手測評 Gemeni 1.5 pro 的用户,Shipper 撰文詳細記錄了他對 Gemeni 1.5 pro 的測評,以及其與 GPT-4 的 “對照實驗”。

1.文本理解和推理能力

Shipper 分別向 Gemeni 1.5 pro 和 GPT-4 提問了一本由 Chaim Potok 於 1967 年出版的小説《選民(The Chosen)》中的情節。

GPT-4 的第一個答案完全錯誤,隨後 Shipper 上傳了這本小説的純文本全文,GPT-4 在檢索到相應位置後給出了正解。

不過,由於上下文窗口過小,GPT-4 在後台執行檢索代碼時,將文本內容分稱了若干個 “文本塊”,再在其中檢索用户提問對應內容——這也意味着,在回答這類問題時,GPT-4 有多智能無關緊要,重要的是 GPT-4 能不能檢索到對應文本。

而 Gemeni 1.5 pro 可以一次性讀完整本書,並提供了 GPT-4 無法提供的關鍵情節。

如果説之前你還對 “超長的上下文窗口” 這個概念一知半解,那麼,這項 “對照實驗” 就直觀地呈現了上下文窗口的長度是如何幫助 Gemeni 1.5 pro 在文本理解和檢索上 “吊打” GPT-4 的。

2.大型項目代碼、文本生成能力

Shipper 指出,Gemeni 1.5 pro 還解鎖了數百個新功能,這些功能難以用 ChatGPT 或自定義的 GPTs 來完成。

比如,Shipper 向 Gemeni 1.5 pro 詢問,如果想要在現有代碼庫中集成 GPT-4,應該在哪裏操作。Gemeni 1.5 pro 不僅在代碼庫中找到了正確的位置,還直接編寫了集成所需的代碼。

Shipper 表示:

“這極大地提高了開發人員的生產力,尤其是在大型項目上。”

為了檢驗 Gemeni 1.5 pro 的生成能力,Shipper 還要求 Gemeni 1.5 pro 給自己此前的文章增加一段 “軼事” 作為開頭。

結果,Gemeni 1.5 pro 給出了一個 “近乎完美” 的文本段落,既充分理解了文章主旨,而且段落設計甚至頗具個人色彩——Shipper 稱其內容 “來自我自己的瀏覽記錄和文字品味”。

不過,這個測試也暴露了 Gemeni 1.5 pro 的缺陷——這則 “軼事” 後來被證實是虛構的。Shipper 對此表示:

“Gemeni 1.5 pro 並不完美,你需要仔細檢查它的工作成果。”

此外,Shipper 還指出自己的測評中存在一些限制因素,有兩點需要注意:

一是 Shipper 測評的是 Gemeni 1.5 pro 私人測試版本,後續版本表現可能因其高昂的成本而有所出入;

二是 Gemeni 1.5 pro 在實際運行中速度 “相當慢”,許多請求需要至少 1 分鐘才能得到反饋。因此 Shipper 認為,Gemeni 1.5 pro 不適合作為目前 LLM 的直接替代品,更適合用來處理 ChatGPT 等大模型無法處理的繁重任務。

OpenAI 應該感到威脅了

縱覽 Gemeni 1.5 pro 帶來的數百項新功能,似乎所有都離不開我們最初提到的核心概念:上下文窗口。

因為只要上下文窗口規模足夠大,那麼無需再輸入檢索代碼就能獲得更準確、強大的結果。

從這個角度來説,Gemeni 1.5 pro 無疑是 Sora 之外對 AI 圈而言另一個 “王炸” 級別的存在。Shipper 在一年前就曾表示:

“Gemini 就是最好的例子。憑藉其大型上下文窗口,您收集的所有個人數據都觸手可及,可以在您需要的任何任務中在正確的位置、正確的時間部署——個人數據越多越好,即使是雜亂無章的數據。”

作為競爭對手的 OpenAI,仍需要迎頭趕上。Shipper 認為,“檢索” 將成為 LLM 的組成部分,該功能在提供數據庫/數據存儲、分塊/搜索信息方面都起着重要的作用。

雖然當上下文窗口足夠大時,檢索功能的價值可能會有所削弱,因為用户可以輸入所有請求。但 Shipper 仍認為,從長遠角度來看,檢索功能仍然十分重要。

和手機內存一個道理。就算以後,100 萬個 tokens 已成常態,用户依然會覺得 “不夠用”。屆時,檢索的價值不外乎從 “百裏挑一” 演變成了 “萬里挑一”。