OpenAI發(fā)布首個文生視頻模型Sora

2024-02-20 15:01

2月16日凌晨，OpenAI再次扔出一枚深水炸彈，發(fā)布了首個文生視頻模型Sora。據(jù)介紹，Sora可以直接輸出長達60秒的視頻，并且包含高度細致的背景、復雜的多角度鏡頭，以及富有情感的多個角色。

目前官網(wǎng)上已經(jīng)更新了48個視頻demo，在這些demo中，Sora不僅能準確呈現(xiàn)細節(jié)，還能理解物體在物理世界中的存在，并生成具有豐富情感的角色。該模型還可以根據(jù)提示、靜止圖像甚至填補現(xiàn)有視頻中的缺失幀來生成視頻。

例如一個Prompt（大語言模型中的提示詞）的描述是：在東京街頭，一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。

在Sora生成的視頻里，女士身著黑色皮衣、紅色裙子在霓虹街頭行走，不僅主體連貫穩(wěn)定，還有多鏡頭，包括從大街景慢慢切入到對女士的臉部表情的特寫，以及潮濕的街道地面反射霓虹燈的光影效果。

另一個Prompt則是，一只貓試圖叫醒熟睡的主人，要求吃早餐，主人試圖忽略這只貓，但貓嘗試了新招，最終主人從枕頭下拿出藏起來的零食，讓貓自己再多待一會兒。在這個AI生成視頻里，貓甚至都學會了踩奶，對主人鼻頭的觸碰甚至都是輕輕的，接近物理世界里貓的真實反應(yīng)。

OpenAI表示，他們正在教AI理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現(xiàn)實世界交互的問題。

隨后OpenAI解釋了Sora的工作原理，Sora是一個擴散模型，它從類似于靜態(tài)噪聲的視頻開始，通過多個步驟逐漸去除噪聲，視頻也從最初的隨機像素轉(zhuǎn)化為清晰的圖像場景。Sora使用了Transformer架構(gòu)，有極強的擴展性。

視頻和圖像是被稱為“補丁”的較小數(shù)據(jù)單位集合，每個“補丁”都類似于GPT中的一個標記(Token)，通過統(tǒng)一的數(shù)據(jù)表達方式，可以在更廣泛的視覺數(shù)據(jù)上訓練和擴散變化，包括不同的時間、分辨率和縱橫比。

Sora是基于過去對DALL·E和GPT的研究基礎(chǔ)構(gòu)建，利用DALL·E 3的重述提示詞技術(shù)，為視覺模型訓練數(shù)據(jù)生成高描述性的標注，因此模型能更好的遵循文本指令。

一位YouTube博主Paddy Galloway發(fā)表了對Sora的感想，他表示內(nèi)容創(chuàng)作行業(yè)已經(jīng)永遠的改變了，并且毫不夸張。“我進入YouTube世界已經(jīng)15年時間，但OpenAI剛剛的展示讓我無言…動畫師/3D藝術(shù)家們有麻煩了，素材網(wǎng)站將變得無關(guān)緊要，任何人都可以無壁壘獲得難以置信的產(chǎn)品，內(nèi)容背后的‘想法’和故事將變得更加重要。”

但Sora模型當前也存在弱點。OpenAI稱它可能難以準確模擬復雜場景的物理原理，并且可能無法理解因果關(guān)系。例如，一個人可能咬了一口餅干后，餅干會沒有咬痕，玻璃破碎的物理過程可能也無法被準確呈現(xiàn)。

THE END

責任編輯：趙智華

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

相關(guān)閱讀

展會預告

新品

多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品
近日，?？低暬谟^瀾大模型技術(shù)體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
誤報率降低90%以上！?？低暟l(fā)布視覺大模型周界攝像機
更準！?？低暟l(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》（以下簡稱“報告”），該報告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊，市場…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟，在市場變革中逆風飛揚

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會，在深…

企業(yè)

來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
(電磁網(wǎng)捕器)提供了一種全新的、更高效的物理隔離和壓制手段。尤其在預案中針對特定突發(fā)情況的模擬處置演練…
應(yīng)用安全再升級！ Imperva Application Security平臺集成新功能
來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
熵基科技：用非侵入式腦機接口，重塑教育、醫(yī)療與養(yǎng)老的未來
華為開發(fā)者大會2025官宣“鴻蒙智選”小豚當家成為首批合作伙伴
深耕垂直物聯(lián)場景，螢石藍海大模型2.0 升級引領(lǐng)行業(yè)再躍遷