Google Gemini unlocks new paid skills, photo-to-video feature fully open

智通財經
2025.07.11 02:36
portai
I'm PortAI, I can summarize articles.

谷歌母公司 Alphabet 宣佈,其 Gemini 人工智能助手將向付費用户開放 “照片轉視頻” 功能。用户可以通過 Gemini 網頁版將單張照片和文本描述生成帶聲音的 8 秒短視頻,視頻分辨率為 720p。此功能由最新一代視頻生成模型 Veo 3 驅動,旨在與 OpenAI 等競爭對手保持同步。谷歌已採取措施確保視頻生成符合規範,但測試顯示技術仍存在缺陷。

智通財經 APP 獲悉,谷歌母公司 Alphabet(GOOGL.US) 宣佈,將面向付費用户開放"照片轉視頻"功能,這項年初僅限小範圍測試的人工智能工具現正式登陸 Gemini 人工智能助手。

該公司聲明稱,自週四起,特定地區訂閲 Google AI Ultra 和 Pro 計劃的用户可通過 Gemini 網頁版使用該功能,移動端應用將在本週內陸續推送更新。

這項新功能允許用户基於單張照片及文本描述,生成帶聲音的 8 秒短視頻。生成的 MP4 格式視頻分辨率為 720p,採用 16:9 橫向畫幅。

此次更新使該功能直接集成至 Gemini 聊天界面,標誌着谷歌在 AI 視頻領域與美國競爭對手 OpenAI、Runway AI Inc.保持同步。全球市場競爭同樣激烈:中國阿里巴巴集團、AI 初創企業 Manus 和快手科技過去數月均發佈了升級版視頻工具。

該功能由谷歌五月在開發者大會發布的最新一代視頻生成模型 Veo 3 驅動,此前僅限通過獨立付費影視工具 Flow 使用。

谷歌強調已採取"重要後台措施確保視頻生成符合規範",例如禁止使用公眾人物 (包括名人、政要及知名企業家) 圖像生成視頻,其政策同時禁止煽動危險行為、暴力或羣體攻擊的內容。

但測試顯示技術仍存缺陷。媒體在 Gemini 網頁版實測中發現:上傳個人照片要求生成人物講話視頻時,輸出結果多次改變面部特徵甚至人種;雖然能成功實現"植物隨風擺動"或"靜態貓片説話"等簡單指令,但對"照片人物跳霹靂舞"等複雜要求,僅生成人物揮手畫面。

谷歌發言人就測試結果回應稱,AI 模型並無修改人物外貌的設定指令,照片轉視頻及面部動畫仍屬新技術,可能基於單張圖像生成與原始內容不符的結果。

該模型更擅長活化其他場景,如日常物品動畫化、畫作動態化及自然照片增運動效果,公司將在後續更新中持續改進包括面部動畫在內的各項功能。