OpenAI CTO:Sora 計劃年底對外發布,或增加音頻和視頻編輯功能
OpenAI 首席技術官透露,Sora 預計將在今年發佈,可能還需要幾個月的時間。一段 20 秒時長、720P 分辨率的無聲視頻,僅僅幾分鐘就能製作完成,計劃在未來為視頻增加音頻和剪輯功能。
今年 2 月,OpenAI 在官網發佈了仍處測試階段的文生視頻大模型 Sora,人們只需輸入一些文字提示,就能製作長達 60 秒的視頻,逼真的視覺效果更是讓許多動畫、影視行業從業者感到 “恐慌”。
當地時間 3 月 13 日週三,OpenAI 的 CTO Mira Murati 接受媒體專訪,在訪談中,Murati 表示,目前 Sora 正在開展紅隊測試 (一種安全評估方法),僅面向少數人開放,計劃是在 2024 年晚些時侯可以正式與公眾見面。
Murati 表示,目前利用 Sora 文生視頻的成本遠高於使用圖像生成器 Dall-E 的成本。她表示,在 Sora 向公眾發佈時,他們將努力優化算法,降低所需的算力,使更多人能夠享受到這項技術帶來的便利。
Murati 透露,一段 20 秒時長、720P 分辨率的無聲視頻,僅僅幾分鐘就能製作完成,計劃在未來為視頻增加語音功能,讓內容更加完整。“我們正在努力將這項技術打造成人們可以編輯和創作的工具。”
當被問及 Sora 對視頻行業從業者可能帶來的影響時,Murati 強調 OpenAI 在發佈這項技術時的謹慎態度。她表示,OpenAI 已經讓一些行業內部人士提前進入測試階段,以便更好地瞭解並應對可能出現的挑戰。她説:“我們希望電影界人士和世界各地的創作者都能參與進來,與我們共同探索如何進一步推動這些行業發展。”
如何識別 AI 生成視頻?
針對 Sora 的工作原理,Murati 解釋稱,Sora 通過大量視頻數據的學習,學會識別和理解各種物體和動作。當用户給它一個文本提示詞時,它能夠迅速勾勒出整個場景,並逐幀填充細節,從而生成出令人驚豔的視頻內容。
那麼 OpenAI 在訓練 Sora 時使用了哪些數據?Murati 回答稱:“我們使用了公開可用的數據和授權數據。”
當被進一步問及是否包括 YouTube、Instagram 和 Facebook 等平台上的視頻時,她表示並不清楚具體情況。Murati 後來證實,授權材料確實包括了來自一些攝影圖片網站的內容。
在早期階段,人們如何能夠識別出視頻是由人工智能生成的而不是真實拍攝的呢?Murati 提到了可能的解決方案:在視頻的底部添加水印。她表示,這些視頻最終將包含元數據,用以標明其來源,這有助於我們識別和追溯其生成方式。
除了技術問題,OpenAI 還在致力於通過紅隊測試來確保 Sora 的安全性和可靠性。紅隊成員嘗試使用各種提示來挑戰 Sora,以發現可能存在的漏洞、偏見和其他有害結果。Murati 稱:“這就是為什麼我們實際上還沒有將 Sora 面向公眾推出的原因,我們需要先弄清楚這些問題,然後才能廣泛的使用它們。”
Murati 透露,Sora 的提示詞政策可能會借鑑其圖像生成器 Dall-E。比如,Sora 將不允許生成公眾人物的圖像。
而關於可能涉及裸體的內容,Murati 表示,公司正在與藝術家們緊密合作,探討如何在不限制創造力的前提下,為這類內容設置適當的 “護欄和限制”。
人類將如何適應這樣的變革?
對於好萊塢等視頻行業來説,文生視頻領域的繁榮既讓人擔心又讓人興奮,這取決於誰用,怎麼用。
好萊塢超級製片人、導演、擁有美國最大製片廠之一泰勒·派瑞(Tyler Perry)在目睹 Sora 的表現後,主動放棄了 8 億美元的電影製片廠擴建計劃。他意識到,這項技術有可能大幅度減少在佈景和外景拍攝上的費用,但同時也引發了人們對未來職業前景的擔憂。
當被問及 Sora 對視頻製作工作可能帶來的影響時,Murati 再次強調了 OpenAI 在發佈這項技術時的謹慎態度。她表示,OpenAI 已經讓一些行業內部人士提前進入測試階段,以便更好地瞭解並應對可能出現的挑戰。她説:“我們希望電影界人士和世界各地的創作者都能參與進來,與我們共同探索如何進一步推動這些行業發展。”
儘管 OpenAI 在推進這項技術時表現得像瓷器店裏的一頭公牛,那麼它需要小心翼翼地避免破壞現有的秩序。但不可避免的是,隨着技術的不斷進步和應用,它終將開始 “撞碎瓷盤”,進而引發視頻製作行業的深刻變革。