國(guó)外小伙意外發(fā)現(xiàn)DALL-E新妙用,AI生成女友竟成逃避長(zhǎng)輩催婚利器???
自從AI圖片生成技術(shù)爆火以后,各路玩家紛紛親自嘗試。
要不就是用AI做個(gè)頭像,要不就是生成一些奇思妙想的畫(huà)作。
但要我說(shuō),這些點(diǎn)子和今天的主人公Dinda比起來(lái),簡(jiǎn)直就是不值一提。
思路打開(kāi)一點(diǎn)嘛。
用高科技應(yīng)付長(zhǎng)輩?
Dinda是YouTube的一名照片編輯,本著近水樓臺(tái)先得月的原則,他每天就是和圖片生成軟件打交道。
最近,Dinda遭遇了全世界大齡青年都會(huì)面臨的問(wèn)題——來(lái)自長(zhǎng)輩的催婚。
然而,Dinda小哥事業(yè)未就,怎能思慮兒女情長(zhǎng)?可來(lái)自長(zhǎng)輩的壓力又不能不管,那就只剩一條路了——作假騙長(zhǎng)輩。
在以前,作假是一件很麻煩的事,要找一個(gè)知根知底的異性朋友,約好來(lái)個(gè)一日情侶。見(jiàn)見(jiàn)家長(zhǎng),把兩邊都糊弄過(guò)去就算完。
但是不得不說(shuō),風(fēng)險(xiǎn)挺大的。一個(gè)大活人,可不能隨時(shí)都配合著應(yīng)付來(lái)自長(zhǎng)輩的檢查。
Dinda想了一個(gè)妙招。如果自己能用DALL-E生成一大堆和女朋友合拍的照片,時(shí)不時(shí)給長(zhǎng)輩發(fā)過(guò)去應(yīng)付一下,不就行了?
Dinda打開(kāi)了DALL-E,用圖像修復(fù)功能進(jìn)行操作。該功能允許用戶擦除圖片上的一部分,然后DALL-E會(huì)根據(jù)用戶輸入的文字來(lái)填補(bǔ)空缺的部分。
于是,Dinda整了點(diǎn)自己的自拍照,然后把身邊的空間擦了一塊,留下一個(gè)正好能放下自己假想的女朋友的位置。
接著,他在指令中輸入——一個(gè)有女朋友的男人。
然后,啪。
這還不算完,一般和修圖打交道的人都很重視細(xì)節(jié)。
為了讓生成的圖像更加的逼真,Dinda還把虛擬女友的臉給裁了下來(lái),導(dǎo)出到一個(gè)叫GFP-GAN的人工智能照片編輯程序中。
通過(guò)這個(gè)程序,Dinda可以進(jìn)行微調(diào),把這張臉做得更逼真。之后再把微調(diào)過(guò)的圖像放到ps里,再修一下,最后放回原始圖像。
這樣一來(lái),生成的照片就無(wú)可挑剔了。
Dinda表示,「就算我告訴別人這張照片是生成的,90%的人也不知道哪里是動(dòng)過(guò)的?!?/p>
與此同時(shí),他還演示了照片編輯人員如何使用同樣的技術(shù)在AI的幫助下把人去掉。
還是一樣的把要去掉的人身上涂抹一下,DALL-E就會(huì)生成一個(gè)替代背景出來(lái)。雖然背景很復(fù)雜,但是生成出來(lái)的圖片也還可以。
超凡圖像生成工具!
DALL-E究竟是什么呢?
我不允許還有人沒(méi)聽(tīng)說(shuō)過(guò)DALL·E。畢竟,現(xiàn)在都出到2代——DALL·E 2了。
這是一款由OpenAI開(kāi)發(fā)的轉(zhuǎn)化器模型,全部的功能就是把「話」變成「畫(huà)」。
具體來(lái)說(shuō),DALL·E是一個(gè)有120億參數(shù)版本的GPT-3,被訓(xùn)練成了使用文本生成圖像的模型。背后的數(shù)據(jù)集是文本-圖像的對(duì)應(yīng)集。
比如上面這幾張圖,有戴帽子的狗,做實(shí)驗(yàn)的熊貓,還有長(zhǎng)得像星云的狗狗。有沒(méi)有覺(jué)得,哪怕不合常理,但是并不違和?這就是DALL·E能做到的。說(shuō)起DALL-E的源頭,其實(shí)是研究人員從GPT-3那里得到了啟發(fā)。GPT-3是個(gè)用語(yǔ)言生成語(yǔ)言的工具,而圖像GPT則可以用來(lái)生成高保真度的圖片。
研究人員發(fā)現(xiàn),用文本來(lái)操控視覺(jué),是可以做到的。也就是這樣,DALL·E成為了一個(gè)和GPT-3一樣的轉(zhuǎn)化器。
在此基礎(chǔ)上,研究人員又開(kāi)始琢磨同時(shí)用文本描述多個(gè)物體,生成一張圖。這些物體各自的特征、之間的空間位置關(guān)系全都交給文字來(lái)描述。
比方說(shuō),輸入文本:一只戴著紅帽子、黃手套,穿著藍(lán)襯衫和綠褲子的刺猬。為了正確生成對(duì)應(yīng)的圖片,DALL·E不僅要正確理解不同衣服和刺猬之間的關(guān)系,還不能混淆不同衣服和顏色的對(duì)應(yīng)關(guān)系。
這種任務(wù)被稱作變量綁定,在文獻(xiàn)中有大量的相關(guān)研究。
可以說(shuō),DALL·E從1代到2代,就是這么一個(gè)個(gè)小任務(wù)走過(guò)來(lái)的。最終能夠呈現(xiàn)的就是一個(gè)不錯(cuò)的文本-圖像轉(zhuǎn)化器。
T2I究竟有多卷?
要說(shuō)今年最火的AI便是多模態(tài)人工智能崛起。
上半年,文本生成圖像AI模型(T2I)各家爭(zhēng)霸。
除了DALL-E,谷歌自家Imagen、Parti,Meta的文本圖像生成工具M(jìn)ake-A-Scene,再到現(xiàn)在大火的Stable Diffusion、谷歌文本3D生成模型DreamFusion都在擴(kuò)充著文本轉(zhuǎn)圖像的應(yīng)用。
先是4月,在GPT-3大模型的加持下,Open AI對(duì)畫(huà)圖界的扛把子DALL-E進(jìn)行了2.0版的全面升級(jí)。
和上一代相比,可以說(shuō),DALL·E 2簡(jiǎn)直就是直接從二次元簡(jiǎn)筆畫(huà)走向超高清大圖:
分辨率提升4倍,從256x256提升到了1024x1024,并且生成圖像的準(zhǔn)確率也更高!
5月,谷歌不甘落后推出AI創(chuàng)作神器Imagen,效果奇佳。
僅僅給出一個(gè)場(chǎng)景的描述,Imagen就能生成高質(zhì)量、高分辨率的圖像,無(wú)論這種場(chǎng)景在現(xiàn)實(shí)世界中是否合乎邏輯。
6月,谷歌再次推出了新一代AI繪畫(huà)大師Parti。
要說(shuō)Imagen和Parti不同地方,便在于采取了不同的策略——自回歸和擴(kuò)散。
Parti是一個(gè)自回歸模型,它的方法首先將一組圖像轉(zhuǎn)換為一系列代碼條目,然后將給定的文本提示轉(zhuǎn)換為這些代碼條目并「拼成」一個(gè)新圖像。
7月,Meta公布了自家的AI「畫(huà)家」——Make-A-Scene,通過(guò)文本描述,再加上一張草圖,就能生成你想要的樣子。
最重要的是,構(gòu)圖上下、左右、大小、形狀等各種元素都由你說(shuō)了算。
可以看到,DALL-E 2、Imagen等仍然停留在二維創(chuàng)作,無(wú)法生成360度無(wú)死角的3D模型。
而谷歌發(fā)布的文本3D生成模型DreamFusion便開(kāi)辟了這一新路線。
訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型。
而且整個(gè)過(guò)程既不需要3D訓(xùn)練數(shù)據(jù),也無(wú)需修改圖像擴(kuò)散模型,完全依賴預(yù)訓(xùn)練擴(kuò)散模型作為先驗(yàn)。
由此可見(jiàn),在文本轉(zhuǎn)圖像這塊,各大廠已經(jīng)卷上了新高度。
甚至有人稱,今年文本轉(zhuǎn)視頻AI模型暫時(shí)還不會(huì)到來(lái)。
沒(méi)想到的是,Meta和谷歌再次打破了這一預(yù)言。
T2V已來(lái)!
9月底,Meta最先公布了文本一鍵生成視頻模型Make-A-Video。
這一模型厲害到什么程度?
除了可以把文本變成視頻之外,它也可以把靜態(tài)圖變成Gif、把視頻變成視頻。
這一模型發(fā)布后,就連圖靈獎(jiǎng)得主Yann LeCun稱,該來(lái)的都會(huì)來(lái)。
比如「馬兒喝水」,生成如下效果:
貓主子拿著遙控器在看電視
簡(jiǎn)直AI導(dǎo)演上線。
緊接著10月,谷歌還是文本視頻模型兩連發(fā)。
先是Imagen Video,與Meta的Make-A-Video相比最突出一個(gè)特點(diǎn)就是「高清」。
它能生成1280*768分辨率、每秒24幀的視頻片段。
與此同時(shí),還有Phenaki模型,讓騎馬的宇航員也動(dòng)了起來(lái)。
這一模型能根據(jù)200個(gè)詞左右的提示語(yǔ)生成2分鐘以上的長(zhǎng)鏡頭,講述一個(gè)完整的故事。
在文本轉(zhuǎn)視頻上,下一個(gè)誰(shuí)會(huì)接棒?
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡(jiǎn)稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來(lái)自市場(chǎng) “不確定性”因素的沖擊,市場(chǎng)…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場(chǎng)變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國(guó)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…