Google's version of Sora released: Surprisingly, the biggest competitor is "KeLing," and OpenAI performed the worst

谷歌發佈了最新的視頻生成模型 Veo 2 和圖像生成模型 Imagen 3，並推出了圖像生成實驗工具 Whisk。測試顯示，OpenAI 的 Sora 表現最差，而可靈成為視頻生成的頂流。Veo 2 以高達 4K 的分辨率生成高質量視頻，具備對真實世界物理規律的深入理解，能夠忠實遵循複雜指令，增強真實感和保真度，表現優於其他 AI 視頻模型。

谷歌剛剛發佈了其最新的視頻生成模型 Veo 2 和圖像生成模型 Imagen 3，並推出了一項全新的圖像生成實驗工具 Whisk，有趣的是根據谷歌的測試，OpenAI Sora 成為表現最差的主流視頻生成模型，可靈成為視頻生成頂流之一，海螺表現也不錯。

Veo 2：號稱最先進的視頻生成模型

Veo 2 能夠生成各種主題和風格的高質量視頻。在與頂尖模型的對比測試中，由人類評估者進行評判，Veo 2 取得了最先進的成果。它對真實世界物理規律以及人類動作和表情的細微之處有了更深入的理解，從而提高了視頻的整體細節和真實感。

Veo 2 理解電影語言的獨特之處。用户可以指定類型、鏡頭和電影特效，Veo 2 能夠以高達 4K 的分辨率和數分鐘的時長來呈現效果。無論是低角度的跟蹤鏡頭，還是科學家使用顯微鏡的特寫鏡頭，Veo 2 都能輕鬆實現。通過提示詞中的 “18mm 鏡頭” 或 “淺景深”，Veo 2 可以分別生成廣角鏡頭或背景模糊、突出主體的效果。

Veo 2 的核心優勢包括：

高質量和控制力: 能夠忠實地遵循簡單和複雜的指令，並逼真地模擬真實世界的物理規律以及各種視覺風格。

增強的真實感和保真度: 在細節、真實度和偽影減少方面顯著優於其他人工智能視頻模型。

先進的運動能力: 由於對物理規律的理解以及執行詳細指令的能力，Veo 能夠準確地呈現運動。

更強大的相機控制選項: 準確地解讀指令，以創建各種鏡頭風格、角度、運動以及它們的組合。

Veo 2 在 Meta 發佈的 MovieGenBench 基準數據集上，對 1003 個提示詞及其對應的視頻進行了人類評估。結果顯示，Veo 2 在整體偏好和準確遵循提示詞的能力方面表現最佳，對比模型為 Sora,Meta 的 Movie Gen，可靈，海螺。

從谷歌這個測試中我們發現，OpenAI 的 Sora 是幾款主流的視頻生成模型中相對錶現最差的，可靈是谷歌最大的競爭對手，在總體偏好和指令遵循偏好兩個指標上，如果把平手和偏好指標數據加起來，可靈是幾款視頻模型中唯一相對 Veo 超過 50% 的偏好選擇的模型，哈哈，可靈獲得谷歌的認證。

與傳統視頻模型經常 “虛構” 多餘細節（如多餘的手指或意外的物體）不同，Veo 2 產生這些問題的頻率較低，使其輸出更逼真。

谷歌也改進了其 Imagen 3 圖像生成模型，現在可以生成更明亮、構圖更好的圖像。它能夠以更高的精度渲染更多樣化的藝術風格，從照片寫實主義到印象主義，從抽象到動漫。升級後的 Imagen 3 模型能夠更忠實地遵循提示詞，並呈現更豐富的細節和紋理。

提示：背景有霓虹綠色燈光、淺景深的亞洲女性肖像

提示：一張特寫的微距攝影素材照片，畫面中一顆草莓被精細地雕刻成蜂鳥的形狀，正處於飛翔中，翅膀模糊成動態效果，彷彿正在吸食一朵色彩鮮豔的管狀花朵的花蜜。背景是鬱鬱葱葱、色彩豐富的花園，柔和的虛化效果（散景）營造出夢幻般的氛圍。圖像極其精細，採用淺景深確保草莓蜂鳥的鋭利對焦，而背景則柔和淡出。高分辨率、專業攝影師風格，柔和的光線使場景細節表現得淋漓盡致，專業的色彩分級進一步增強了鮮豔的色彩，使畫面呈現出卓越的清晰度。景深使蜂鳥與花朵在虛化背景下格外突出

提示：以高預算動畫電影風格呈現，畫面充滿生動、繪畫般的質感，展現出廣闊的星際景觀，紫色、藍色與金色的發光星雲交織輝映。主角是一名身披星辰圖案飄逸斗篷的小女孩，佇立在一座晶瑩剔透的懸崖邊緣。懸崖下，熔化的星塵之河在銀河中蜿蜒流淌，金色光芒動態閃爍。背景中，高聳的星座以神話生物的形態懸浮，輪廓由發光的點狀線條勾勒而成。流星劃破廣袤的天空，為畫面增添了動感與璀璨的光輝。鏡頭角度略微升高，既捕捉到了浩瀚銀河的壯麗，也展現出主角旅程的孤獨與神秘感