
Track Hyper | Tongyi Qianwen launches multimodal model Qwen VLo

阿里雲在中國生成式 AI 基礎設施市場佔據 23% 份額,位列第一。6 月 27 日,阿里雲推出多模態模型 Qwen VLo,具備理解與再創造能力,採用漸進式生成方式,支持任意分辨率和長寬比,提升圖像生成的靈活性和可控性。Qwen VLo 解決了多模態模型生成中的語義不一致問題,提升了細節捕捉能力,確保生成內容的高語義一致性。
作者:周源/華爾街見聞
阿里雲在中國生成式 AI 基礎設施登頂。
據 IDC 剛剛發佈的最新報告顯示,2024 年中國 AI 基礎設施(AI IaaS)市場份額,阿里雲佔比 23%,位列中國市場第一,超過第二名和第三名總和;在生成式 AI 基礎設施領域,阿里雲取得模型訓練和模型推理市場的雙項冠軍。
阿里雲的生成式推理模型迭代頻繁,動作很多。
6 月 27 日,阿里雲通義千問推出多模態統一理解與生成模型 Qwen VLo,用户可通過 Qwen Chat(chat.qwen.ai)體驗。
這一模型在人工智能領域傳承與創新,為多模態人工智能發展帶來新探索,具備理解和基於理解進行再創造的能力。
Qwen VLo 採用漸進式生成方式,在生成圖像時從左到右、從上到下逐步構建畫面。
在這個過程中,模型不斷對預測內容調整優化,比如生成風景圖時,先勾勒山川河流輪廓,再細化樹木、花草等細節,確保畫面在結構、色彩、語義等方面和諧統一。
這種生成機制給用户更靈活、可控的創作體驗,設計師創作海報時,可實時觀察生成過程,及時調整不協調部分,讓創作更貼合預期。
據官方介紹,Qwen VLo 運用動態分辨率訓練技術,在圖像生成的輸入和輸出端,都支持任意分辨率和長寬比。
以往模型受限於固定尺寸和比例,而 Qwen VLo 打破這一限制。無論是製作長寬比為 4:1 的橫幅廣告,還是 1:3 的社交媒體豎版封面,用户都能按需生成。
Qwen VLo 通過技術創新,創造了圖像生成在分辨率和長寬比方面的更多資源,電商商家可根據不同平台要求,快速生成適配的商品展示圖,無需繁瑣的後期裁剪調整。
過往多模態模型生成時易出現語義不一致問題,如將汽車圖片錯誤生成其他物體,或改變原圖關鍵結構特徵。
Qwen VLo 通過提升細節捕捉能力,在生成中保持較高語義一致性。
當用户輸入汽車照片並要求 “將顏色換成藍色”,模型精準識別車型,保留車身結構、線條等特徵,自然地完成顏色替換,生成結果既符合指令預期,又不失真實感。
這種能力恰似達爾文進化論中物種對環境的精準適應,模型在複雜的圖像生成環境中,不斷進化以滿足多樣且精細的用户需求。
用户能用自然語言對圖像提出創意指令,Qwen VLo 能靈活響應。輸入 “把這張照片風格變成梵高的畫風”“給圖片中的天空加上彩虹”,模型即可完成藝術風格遷移、場景元素添加等操作。
面對 “把人物換成卡通形象,背景改為森林,同時添加宣傳語” 這類複雜指令,也能嘗試執行。此外,傳統視覺感知任務如預測深度圖、分割圖等,通過編輯指令也能實現。
這一特性體現了 “不創新,就死亡” 的理念,Qwen VLo 打破傳統模型指令響應的侷限,賦予用户更自由的操作空間,使其在開放指令編輯修改中不斷進化,適應快速發展的 AI 市場。
Qwen VLo 支持包括中文、英文等多種語言指令。全球用户無論使用何種語言,只要簡潔描述需求,模型就能理解並生成結果。
中國用户用中文輸入 “生成一張美麗的花朵圖片”,國外用户用英文輸入 “Generate a picture of beautiful flowers”,都能得到符合要求的圖片。
這符合美國理性預期學派的領袖、諾貝爾經濟學獎獲得者托馬斯・薩金特(Thomas J. Sargent)提出的開放和自由貿易理念,通過技術手段打破語言壁壘,促進全球用户在圖像生成領域的 “交流貿易”。
在廣告設計行業,設計師常需為不同客户和項目快速產出多種風格設計方案。
藉助 Qwen VLo,輸入 “時尚運動品牌夏季促銷海報”,模型迅速生成多版不同構圖、配色的海報草圖,設計師在此基礎上完善,大大縮短設計週期。
在包裝設計方面,輸入產品特點、目標受眾等信息,模型生成相應設計圖,提供創意靈感。Qwen VLo 為設計師提供創意裂變的契機,幫助其用創新設計在市場競爭中贏得商業利潤。
在教育領域,教師可利用 Qwen VLo 將抽象知識具象化。
地理課講解地貌時,輸入 “生成一張丹霞地貌的圖片”,模型展示相關圖片,幫助學生直觀理解;語文教學中,講解古詩詞時,輸入詩詞內容,模型生成詩意場景圖,加深學生對詩詞意境的體會。
自媒體創作者、博主等創作內容時,需優質配圖吸引受眾。通過 Qwen VLo,輸入文章主題如 “旅遊攻略之海邊度假”,模型生成海灘、海景等相關圖片;在視頻製作中,輸入視頻腳本關鍵信息,模型生成視頻分鏡草圖,為拍攝和後期剪輯提供參考,提升內容創作質量和效率。
在遊戲開發中,Qwen VLo 能助力遊戲美術資源製作。遊戲設計師輸入遊戲風格、場景設定等指令,模型生成遊戲場景、角色、道具等美術素材,降低開發成本,加速開發進程。
玩家也可利用模型生成個性化遊戲場景、角色形象,增加遊戲趣味性。影視製作中,在前期概念設計階段,輸入故事背景、角色特點等信息,模型生成影視場景概念圖、角色概念圖,為後續拍攝和特效製作提供方向。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
