Gemini 3 is back to make a splash! Google's popular live image model upgrade, Nano Banana Pro offers "studio-level" precision and control

華爾街見聞
2025.11.20 21:30
portai
I'm PortAI, I can summarize articles.

Nano Banana Pro 支持生成最高 4K 分辨率的圖像,可在多語言環境下精確渲染文本,允許用户像使用專業相機一樣控制拍攝角度、景深、色彩和光照等參數,可保持最多五個角色和十四個物體的一致性。它可將菜譜文本轉換為圖解流程圖,可視化天氣等實時信息,可將圖像場景從白天換為夜晚。Gemini App 免費用户可在限額內使用新模型,生圖帶水印。谷歌還推出溯源功能,可上傳圖像到 Gemini App 查詢是否由谷歌 AI 生成。

谷歌的最強大人工智能(AI)模型 Gemini 3 剛發佈兩天,就來返場送驚喜了。

美東時間 20 日週四,谷歌宣佈,基於 Gemini,升級其大熱的圖像生成與編輯模型。新推出的模型 Nano Banana Pro 號稱能提供 “攝影棚級別” 的精度和控制,在文本渲染準確性、分辨率和專業控制能力上實現顯著提升,旨在將 AI 圖像工具從消費級應用推向專業設計領域。

Nano Banana Pro 支持生成最高 4K 分辨率的圖像,可在多語言環境下精確渲染文本,並允許用户像使用專業相機一樣控制拍攝角度、景深、色彩和光照等參數。谷歌 Labs 和 Gemini 副總裁 Josh Woodward 表示,該產品在信息圖表製作、幻燈片設計等方面表現出色,可保持最多五個角色和十四個物體的一致性。

谷歌的全球免費 Gemini 用户將能夠在配額限制內使用 Nano Banana Pro,超出配額後將自動切換回舊版模型,付費 AI 計劃訂閲用户則擁有更高使用額度。該模型已集成至 Canva、Figma、Adobe Firefly 和 Photoshop 等主流設計工具。

谷歌還同步推出了 AI 內容溯源功能。用户可在 Gemini 應用程序 App 中上傳圖像,查詢其是否由谷歌 AI 生成,該功能未來將擴展至音頻和視頻。此舉是谷歌將 AI 技術商業化的最新嘗試,也是其在生成式 AI 競賽中追趕 OpenAI 的重要一步。

這一發布延續了谷歌本週在 AI 領域的強勁勢頭。週二發佈的 Gemini 3 在推理和編碼能力上實現"巨大躍升",週三推動谷歌母公司 Alphabet 股價創歷史新高。週四官宣 Nano Banana Pro 當天,股價早盤一度漲近 5%,但午盤追隨大盤轉跌,收跌約 1%,暫別週三刷新的收盤最高紀錄。

攻克 AI 拼寫難題,文本渲染實現突破

AI 圖像生成模型長期面臨的一個核心挑戰是文本渲染準確性。雖然部分模型隨時間推移改進,但在生成包含多個文本短語的圖像時,拼寫錯誤和字體扭曲仍然常見,這限制了其作為專業設計工具的潛力。

Nano Banana Pro 直接針對這一問題提供解決方案。谷歌發言人表示,新模型在渲染最終圖像前,能夠更好地規劃文本位置、字體特徵及其與其他圖像元素的空間關係。該技術可將菜譜文本轉換為圖解流程圖,或可視化天氣、體育等實時信息。

Nano Banana Pro 支持生成清晰可辨的文本,用户可描述所需字體類型或模擬不同手寫風格,還能在圖像內生成本地化文本或翻譯文字。這使用户能夠創建針對國際市場的產品展示、海報和信息圖表。谷歌在博客文章中強調,鋭利、清晰的文本幫助用户製作富有衝擊力的海報、複雜圖表和詳細產品模型。

不過谷歌也提醒用户注意侷限性。新模型在生成信息圖表、標註圖表或呈現複雜數據時,可能誤讀信息或產生事實錯誤。雖然能夠生成和翻譯多語言文本,但在語法、拼寫、文化細微差別或慣用語方面仍可能出現問題。用户應始終仔細檢查生成的圖像及其中文本的準確性。

專業級控制功能,分辨率躍升至 4K

Nano Banana Pro 為專業用户提供了前所未有的精細控制能力。用户可探索不同拍攝角度和類型,包括廣角、全景、特寫等,還能調整景深以聚焦圖像中的不同主體。

在色彩和光照方面,用户可調整色調分級和光照方向,甚至可將場景從白天轉換為夜晚。

模型支持 1K、2K 和 4K 三種分辨率的精準放大,並能隨意切換縱橫比以適配不同平台或用途。

分辨率提升的代價是成本增加和速度下降。原 Nano Banana 模型生成 1024 像素圖像的成本為 0.039 美元,而新模型生成 1080p 或 2K 圖像的成本為 0.139 美元,4K 圖像為 0.24 美元。

在素材一致性方面,模型可在單一工作流程中保持最多五個角色的一致性和相似度,以及最多十四個物體的保真度。對於希望在營銷活動中融入自身設計的品牌,模型可接收最多 14 張參考圖像,並在用户文本提示描述的新場景中重新編排它們,同時保留輸入素材的特徵。

模型還能將草圖轉化為物體,將手繪筆記轉為圖表,將創意變成 3D 渲染建築。用户可一次創建多張圖像,快速高效地探索和審查創意選項。谷歌表示,模型還能創建具有真實細節的風景、植物、人物和動物的逼真圖像。

廣泛產品集成,付費用户獲更高配額

Nano Banana Pro 正在谷歌現有 AI 工具中全面推廣。Gemini App 將默認使用新模型生成圖像,免費訂閲用户可在限定配額內使用,超出後將切換回原 Nano Banana 模型。Google AI Plus、Pro 和 Ultra 訂閲用户將獲得更高生成額度,這些付費用户還可在 Notebook LM 中使用該模型。

在美國地區,AI Pro 和 Ultra 訂閲用户可通過 AI 模式在搜索中訪問該模型。Ultra 訂閲用户還能在谷歌視頻工具 Flow 中使用,Workspace 客户可在 Google Slides 和 Vids 中使用。開發者則可通過 Gemini API、Google AI Studio 和新 IDE Antigravity 調用 Nano Banana Pro。

谷歌同時將其 SynthID 技術整合至 Gemini 應用,用於為 AI 生成圖像添加水印和檢測。用户可上傳圖像,聊天機器人將告知該圖像是否由谷歌圖像模型創建或修改。谷歌目前為所有 AI 工具創建的媒體嵌入不可見的數字水印,免費或 Pro 方案的訂閲用户創建的圖像還會添加可見水印,訂閲最高價 Ultra 方案的用户則可移除可見水印。谷歌未提及是否計劃支持 C2PA 等其他 AI 水印標準。

用户增長強勁,商業化進程提速

Nano Banana Pro 的前身 Nano Banana 今年 8 月面世後在社交媒體上迅速走紅,用户將自己或寵物的照片轉化為超寫實 3D 小雕像。Woodward 在 9 月的 X 帖子中寫道,該產品幫助 Gemini 應用在四天內新增 1300 萬用户。

據谷歌發佈的數據,Gemini App 目前每月活躍用户超過 6.5 億,由 Gemini 驅動的 AI Overviews 每月用户達 20 億。相比之下,OpenAI CEO Sam Altman 在 10 月表示,ChatGPT 每週活躍用户達 8 億。

Woodward 本週四表示,谷歌 AI 產品需求持續增長,許多用户註冊 Gemini 訂閲計劃以獲得"這些高級模型的更高限額"。他表示,"我們看到大量用户湧向這些產品,這實際上是最好的問題——需求很大,我們正在努力弄清楚如何服務這些需求。"

此次發佈標誌着谷歌將 AI 技術商業化的最新嘗試。自 2022 年 ChatGPT 發佈引發生成式 AI 競賽以來,谷歌一直在努力追趕 OpenAI。上週,OpenAI 宣佈對 GPT-5 模型進行兩項更新,使其"默認更温暖、更具對話性",並"在日常使用中更高效、更易理解"。目前 ChatGPT 在蘋果 App Store 免費應用榜單中排名第一,Gemini 位居第二。

Woodward 表示,公司計劃繼續擴大 AI 產品規模,重點包括 AI 電影製作工具 Flow 和目前作為有限研究預覽版提供的"世界構建"模型 Genie。