一区二区三区A片|Av不卡高清网址|精品久久不卡一本|一区二区三区绿色|五月黄色婷婷久久|综合 另类 一区|亚洲成人VA视频|久久国产特黄大片|成人无码激情亚洲|黄色字幕网址大全

谷歌AI生成視頻兩連發(fā) 網(wǎng)友:對短視頻行業(yè)沖擊太大

內(nèi)容生成AI進入視頻時代!Meta發(fā)布「用嘴做視頻」僅一周,谷歌CEO劈柴哥接連派出兩名選手上場競爭。第一位Imagen Video與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。

原標題:谷歌AI生成視頻兩連發(fā):720p高清+長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

內(nèi)容生成AI進入視頻時代!

Meta發(fā)布「用嘴做視頻」僅一周,谷歌CEO劈柴哥接連派出兩名選手上場競爭。

第一位Imagen Video與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。

另一位選手Phenaki,則能根據(jù)200個詞左右的提示語生成2分鐘以上的長鏡頭,講述一個完整的故事。

網(wǎng)友看過后表示,這一切進展實在太快了。

也有網(wǎng)友認為,這種技術一旦成熟,會沖擊短視頻行業(yè)。

那么,兩個AI具體有什么能力和特點,我們分別來看。

Imagen Video:理解藝術風格與3D結構

Imagen Video同樣基于最近大火的擴散模型,直接繼承自5月份的圖像生成SOTA模型Imagen。

除了分辨率高以外,還展示出三種特別能力。

首先它能理解并生成不同藝術風格的作品,如“水彩畫”或者“像素畫”,或者直接“梵高風格”。

它還能理解物體的3D結構,在旋轉展示中不會變形。

最后它還繼承了Imagen準確描繪文字的能力,在此基礎上僅靠簡單描述產(chǎn)生各種創(chuàng)意動畫,

這效果,直接當成一個視頻的片頭不過分吧?

除了應用效果出色以外,研究人員表示其中用到的一些優(yōu)化技巧不光對視頻生成有效,可以泛化至一般擴散模型。

具體來說,Imagen Video是一系列模型的集合。

語言模型部分是谷歌自家的T5-XXL,訓練好后凍結住文本編碼器部分。

與負責從文本特征映射到圖像特征的CLIP相比,有一個關鍵不同:

語言模型只負責編碼文本特征,把文本到圖像轉換的工作丟給了后面的視頻擴散模型。

基礎模型,在生成圖像的基礎上以自回歸方式不斷預測下一幀,首先生成一個48*24、每秒3幀的視頻。

接下來,一系列空間超分辨率(Spatial Super-Resolution)與時間超分辨率(Temporal Super-Resolution)模型接連對視頻做擴展處理。

所有7種擴散模型都使用了v-prediction parameterization方法,與傳統(tǒng)方法相比在視頻場景中可以避免顏色偏移。

這種方法擴展到一般擴散模型,還使樣本質(zhì)量指標的收斂速度更快。

此外還有漸進式蒸餾(Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節(jié)省顯存消耗。

這些優(yōu)化技巧加起來,終于使生成高清視頻成為可能。

Phenaki:人人都能是“導演”

Phenaki的論文投了ICLR 2023會議,在一周前Meta發(fā)布Make-a-video的時候還是匿名雙盲評審狀態(tài)。

如今信息公開,原來研究團隊同樣來自谷歌。

在公開的信息中,Phenaki展示了它交互生成視頻的能力,可以任意切換視頻的整體風格:高清視頻/卡通,還能夠切換任意場景。

還可以向Phenaki輸入一個初始幀以及一個提示,便能生成一段視頻。

這都還是開胃小菜,Phenaki真正的大招是:講故事,它能夠生成2分鐘以上的長視頻,通過輸入長達200多個字符的系列提示來得到。

(那有了這個模型,豈不是人人都能當導演了?手動狗頭)

從文本提示到視頻,計算成本高、高質(zhì)量文本視頻數(shù)據(jù)數(shù)量有限以及視頻長度可變一直以來都是此類模型發(fā)展的難題。

以往的大多數(shù)AI模型都是通過單一的提示來生成視頻,但若要生成一個長時間并且連貫的視頻這遠遠不夠。

而Phenaki則能生成2分鐘以上的視頻,并且還具備故事情節(jié),這主要歸功于它能夠根據(jù)一系列的提示來生成視頻的能力。

具體來說,研究人員引入了一個新的因果模型來學習表示視頻:將視頻視作圖像的一個時間序列。

這個模型基于transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。

再講通俗一點,就是通過空間transformer將單個提示進行編碼,隨后再用因果transformer將多個編碼好的提示串聯(lián)起來。

一個提示生成一段視頻,這樣一來,視頻序列便可以沿著提示中描述的時間序列將整個“故事”串在一起。

因為將視頻壓縮為離散的圖像序列,這樣也大大減少了AI處理標記視頻的數(shù)量,在一定程度上降低了模型的訓練成本。

提到模型訓練,和大型圖像系統(tǒng)一樣,Phenaki也主要使用文本-圖像數(shù)據(jù)進行訓練,此外,研究人員還用1.4秒,幀率8FPS的短視頻文本對Phenaki進行訓練。

僅僅通過對大量圖像文本對以及少量視頻文本例子進行聯(lián)合訓練,便能達到突破視頻數(shù)據(jù)集的效果。

Imagen Video和Phenaki,谷歌接連放出大招,從文本到視頻的AI發(fā)展勢頭迅猛。

值得一提的是,Imagen Video一作表示,兩個團隊將合作進行下一步研究。

嗯,有的網(wǎng)友已經(jīng)等不及了。

One More Thing

出于安全和倫理的考慮,谷歌暫時不會發(fā)布兩個視頻生成模型的代碼或Demo。

不過既然發(fā)了論文,出現(xiàn)開源復刻版本也只是時間問題。

畢竟當初Imagen論文出來沒幾個月,GitHub上就出現(xiàn)了Pytorch版本。

另外Stable Diffusion背后的StabilityAI創(chuàng)始人兼CEO也說過,將發(fā)布比Meta的Make-A-Video更好的模型,而且是大家都能用上的那種。

當然,每次AI有了新進展后都會不可避免地碰到那個話題——AI會不會取代人類。

目前來說,一位影視行業(yè)的工作者表示還不到時候:

老實說,作為一個在電影行業(yè)工作了十年的人,這個話題令人沮喪。

在他看來,當前的視頻生成AI在外行看起來已經(jīng)足夠驚艷,不過業(yè)內(nèi)人士會認為AI還缺乏對每一個鏡頭的精細控制。

對于這個話題,StabilityAI新任首席信息官Daniel Jeffries此前撰文表示,AI最終會帶來更多的工作崗位。

如相機的發(fā)明雖然取代了大部分肖像畫家,但也創(chuàng)造了攝影師,還開辟了電影和電視這樣的全新產(chǎn)業(yè)。

5年后再回看的話,反對AI就像現(xiàn)在反對Photoshop一樣奇怪,AI只不過是另一個工具。

Jeffries稱未來是環(huán)境人工智能(Ambient AI)的時代,各個行業(yè)、各個領域都會在人工智能的加持下進行發(fā)展。

不過現(xiàn)在我們需要的是一個更開放的人工智能環(huán)境,也就是說:開源!

最后,如果你現(xiàn)在就想玩一下AI生成視頻的話,可以先到HuggingFace上試試清華與智源實驗室的Cogvideo。

THE END
責任編輯:李斌
免責聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟賠償!敬請諒解!