
全網首發!谷歌 Gemini 多模態接口開放!DataLearnerAI 第一時間測試 Gemini Pro 多模態能力,比想象驚喜!

Google Gemini 是 Google 最新發布的大模型系列,包含三個不同參數規模的 4 個模型。Gemini 的多模態能力很強,測試發現視頻無法處理,圖片中手寫的文本內容英文效果不錯,但是中文識別不夠。Gemini Pro 可以根據輸入的視頻、圖片以及圖文混合指令生成文本內容。DataLearnerAI 第一時間測試 Gemini Pro 多模態能力,發現 Gemini 的多模態能力比 GPT-4V 好用很多,也很準。
Google Gemini 是 Google 最新發布的大模型系列。這是一系列的多模態的大模型,谷歌官方宣佈在各項評分中 Gemini 超過了 GPT-4V。但是,谷歌的宣傳視頻被很多人質疑造假嫌疑,導致被全網嘲諷。而今天,Google 官方的 Gemini 多模態接口開放,DataLearnerAI 第一時間申請測試,結果讓人驚喜,結論就是Gemini 的多模態能力很強(本來想測試對比 GPT-4V,但是最近 GPT-4V 解析圖片失敗率很高,放棄)。

Google 的 Gemini 簡介
Gemini 模型是一個系列模型,包含三個不同參數規模的 4 個模型。

根據官方的提示,這四個模型均為多模態大模型。在今天,Google 的 Pro 版本的多模態接口已經開放,Gemini Pro 可以根據輸入的視頻、圖片以及圖文混合指令生成文本內容。
DataLearnerAI 本次測試的能力包括手寫文本識別、圖片文本信息 json 化抽取、基於圖文 few-shot 的圖片理解、視頻描述幾個內容。
手寫文本識別
在這個測試中,我們分別用 Gemini 識別提取圖片中手寫的文本內容,結果發現英文效果不錯,但是中文識別不夠(其實難度也很高)。

這是在手機上手寫的一箇中文結果,最終 Gemini 返回的如下:

可以,看到漏掉了幾個字。但是如果換成英文,則效果不錯:


圖片信息 json 格式化提取
在這個測試中,我們從 HKT 官網截取了一段運營商套餐費用信息,然後使用Gemini 提取圖片信息,並用 json 返回,信息提取非常準確,而且可以識別是三個不同的套餐,進而生成了一個數組,包含了三組 json:


可以看到,儘管這個圖片信息密集,但是 Gemini 可以準確識別其中的邏輯結構,並分組輸出。
基於圖文 few-shot 的圖片理解
這個測試非常有意思,是一個多模態 few-shot案例。就是你先給出 2 個圖文關係,每一個都是一幅圖 + 一個 json 輸出。相當於有 2 個示例,然後給 Gemini 一個新的圖片,Gemini 可以自動理解前面的圖文關係,生成新的 json 文本。在這個測試中,DataLearnerAI 先給出了 2 組圖片,分別是睡覺的貓咪和奔跑的狗狗,圖是 Google 截圖,類似如下的輸入:
[cat.jpg]
{"object":"cat","status":"sleeping"}
[dog.jpg]
{"object":"dog","status":"running"}
[tiger.jpg]
最終谷歌的 Gemini 準確輸出了一個在吃東西的老虎。


識別圖片中人物(男孩女孩)的數量
這個測試中,我們先用 ChatGPT 生成了一組在 “快樂” 加班的人,然後讓 Gemini 數這圖中有多少人。


emmm,圖片的人很快樂,但是多少人雖然看不太清楚,如果遠處的人也算的化,應該是不止 35 個的。而 ChatGPT 認為只有 20 個人!
接下來,我們繼續做了一個測試,輸入一個圖片,讓 Gemini 用 json 返回圖片中男孩和女孩的數量:


這個結果沒有問題!
基於視頻生成旅遊描述
這一段測試主要是上傳了幾十秒的南京城市宣傳片,讓 Gemini 基於這個宣傳片生成一份旅遊廣告的描述。根據官網的描述,Gemini 可以理解視頻描述的是什麼,裏面的人有什麼動作或者在做什麼,甚至基於視頻生成廣告描述。但是,我們測試了很多次,該接口都測試失敗,遂放棄。

但是,不管怎麼説,從圖片的測試結果看,Gemini Pro 的多模態能力或者説圖片的理解能力是非常強的。官網的示例中還有給出 2 個圖片,一個圖片是某種堅果,第二種圖片是各種不同堅果在市場的價格,然後問第一個圖片的東西價格多少。這些多模態能力是非常強大的,對於未來很多事情都打開了想象空間。
Gemini 多模態能力總結
儘管測試不太完美,視頻無法處理,但是總體來説還是要比想象好很多,這個能力比目前 GPT-4V 官方的 web 版本好用很多,也很準確。而且從實測結果看,可用性很高。值得推薦~
本文作者:DataLearner,來源:,原文標題:《全網首發!谷歌 Gemini 多模態接口開放!DataLearnerAI 第一時間測試 Gemini Pro 多模態能力,比想象驚喜!》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
