全網首發！谷歌 Gemini 多模態接口開放！DataLearnerAI 第一時間測試 Gemini Pro 多模態能力，比想象驚喜！

Google Gemini 是 Google 最新發布的大模型系列，包含三個不同參數規模的 4 個模型。Gemini 的多模態能力很強，測試發現視頻無法處理，圖片中手寫的文本內容英文效果不錯，但是中文識別不夠。Gemini Pro 可以根據輸入的視頻、圖片以及圖文混合指令生成文本內容。DataLearnerAI 第一時間測試 Gemini Pro 多模態能力，發現 Gemini 的多模態能力比 GPT-4V 好用很多，也很準。

Google Gemini 是 Google 最新發布的大模型系列。這是一系列的多模態的大模型，谷歌官方宣佈在各項評分中 Gemini 超過了 GPT-4V。但是，谷歌的宣傳視頻被很多人質疑造假嫌疑，導致被全網嘲諷。而今天，Google 官方的 Gemini 多模態接口開放，DataLearnerAI 第一時間申請測試，結果讓人驚喜，結論就是Gemini 的多模態能力很強（本來想測試對比 GPT-4V，但是最近 GPT-4V 解析圖片失敗率很高，放棄）。

Google 的 Gemini 簡介

Gemini 模型是一個系列模型，包含三個不同參數規模的 4 個模型。

根據官方的提示，這四個模型均為多模態大模型。在今天，Google 的 Pro 版本的多模態接口已經開放，Gemini Pro 可以根據輸入的視頻、圖片以及圖文混合指令生成文本內容。

DataLearnerAI 本次測試的能力包括手寫文本識別、圖片文本信息 json 化抽取、基於圖文 few-shot 的圖片理解、視頻描述幾個內容。

手寫文本識別

在這個測試中，我們分別用 Gemini 識別提取圖片中手寫的文本內容，結果發現英文效果不錯，但是中文識別不夠（其實難度也很高）。

這是在手機上手寫的一箇中文結果，最終 Gemini 返回的如下：

可以，看到漏掉了幾個字。但是如果換成英文，則效果不錯：

圖片信息 json 格式化提取

在這個測試中，我們從 HKT 官網截取了一段運營商套餐費用信息，然後使用Gemini 提取圖片信息，並用 json 返回，信息提取非常準確，而且可以識別是三個不同的套餐，進而生成了一個數組，包含了三組 json：

可以看到，儘管這個圖片信息密集，但是 Gemini 可以準確識別其中的邏輯結構，並分組輸出。

基於圖文 few-shot 的圖片理解

這個測試非常有意思，是一個多模態 few-shot案例。就是你先給出 2 個圖文關係，每一個都是一幅圖 + 一個 json 輸出。相當於有 2 個示例，然後給 Gemini 一個新的圖片，Gemini 可以自動理解前面的圖文關係，生成新的 json 文本。在這個測試中，DataLearnerAI 先給出了 2 組圖片，分別是睡覺的貓咪和奔跑的狗狗，圖是 Google 截圖，類似如下的輸入：

[cat.jpg]

{"object":"cat","status":"sleeping"}

[dog.jpg]

{"object":"dog","status":"running"}

[tiger.jpg]

最終谷歌的 Gemini 準確輸出了一個在吃東西的老虎。

識別圖片中人物（男孩女孩）的數量

這個測試中，我們先用 ChatGPT 生成了一組在 “快樂” 加班的人，然後讓 Gemini 數這圖中有多少人。

emmm，圖片的人很快樂，但是多少人雖然看不太清楚，如果遠處的人也算的化，應該是不止 35 個的。而 ChatGPT 認為只有 20 個人！

接下來，我們繼續做了一個測試，輸入一個圖片，讓 Gemini 用 json 返回圖片中男孩和女孩的數量：

這個結果沒有問題！

基於視頻生成旅遊描述

這一段測試主要是上傳了幾十秒的南京城市宣傳片，讓 Gemini 基於這個宣傳片生成一份旅遊廣告的描述。根據官網的描述，Gemini 可以理解視頻描述的是什麼，裏面的人有什麼動作或者在做什麼，甚至基於視頻生成廣告描述。但是，我們測試了很多次，該接口都測試失敗，遂放棄。

但是，不管怎麼説，從圖片的測試結果看，Gemini Pro 的多模態能力或者説圖片的理解能力是非常強的。官網的示例中還有給出 2 個圖片，一個圖片是某種堅果，第二種圖片是各種不同堅果在市場的價格，然後問第一個圖片的東西價格多少。這些多模態能力是非常強大的，對於未來很多事情都打開了想象空間。

Gemini 多模態能力總結

儘管測試不太完美，視頻無法處理，但是總體來説還是要比想象好很多，這個能力比目前 GPT-4V 官方的 web 版本好用很多，也很準確。而且從實測結果看，可用性很高。值得推薦～

本文作者：DataLearner，來源：，原文標題：《全網首發！谷歌 Gemini 多模態接口開放！DataLearnerAI 第一時間測試 Gemini Pro 多模態能力，比想象驚喜！》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。