人類忙著卷來卷去的時候，AI已經(jīng)完成了近幾年最大的一次進化了

2022-10-26 11:38

人們已經(jīng)躲不開它，但同時也發(fā)覺，無論是AI的技術(shù)演進還是商業(yè)應(yīng)用，似乎都遇到了瓶頸。人們有很多年沒再體驗到AlphaGo那樣的驚艷，業(yè)界也沒再經(jīng)歷像語音助手普及那樣的商業(yè)機會，甚至許多投資人也只是在實在沒什么新鮮故事時，才不情愿的又轉(zhuǎn)身回頭看起了AI的機會。

有很長一段時間，AI（人工智能）這個詞變得沒那么讓人興奮了。

不過，就在這個全人類都忙著卷來卷去的2022，AI卻正在經(jīng)歷一次近年來最大的一次進化。

AI突然翻紅

就在10月18號，因為推出 Stable Diffusion 文本-圖像AI生成模型而大火的人工智能公司 StabilityAI 宣布完成1.01億美元的種子輪融資，讓整個公司估值達到10億美金，成為所謂“獨角獸”企業(yè)。這距離 StabilityAI 成立僅有兩年時間。

圖源：StabilityAI 官網(wǎng)

即便以科技互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的標(biāo)準(zhǔn)看，StabilityAI 的成長速度也是驚人的，這種速度是2022年以來全球AI產(chǎn)業(yè)爆發(fā)式增長的一個縮影，此刻距 StabilityAI 旗下的 Stable Diffusion 開源模型風(fēng)靡全球尚不足2個月。

這種疾風(fēng)驟雨的突飛猛進堪稱一場真正的革命，尤其在全球經(jīng)濟預(yù)期轉(zhuǎn)弱的大背景下。

同所有的革命一樣，這場AI革命也不是一夜之間完成的。

一直以來人們都有一個夢想，即借助人工智能AI技術(shù)來拓展現(xiàn)有人類智慧、知識和創(chuàng)造力的邊界，但人腦復(fù)雜結(jié)構(gòu)帶來的學(xué)習(xí)能力遠(yuǎn)超人類構(gòu)建AI的能力，于是AI只能通過各種特定深度學(xué)習(xí)模型來單點突破某些特定領(lǐng)域，比如 alphaGO 用來學(xué)習(xí)圍棋，又比如通過天文大數(shù)據(jù)幫助尋找脈沖星候選體。

而AIGC，即基于AI能力的內(nèi)容創(chuàng)作（包括文字、圖片和視頻等等）也是其中一個重要類別，2022年之前，囿于核心技術(shù)的局限性，這個領(lǐng)域一直不溫不火，因為AI并沒有點石成金的法術(shù)，它不具備人類憑空創(chuàng)造的能力。AI的“深度學(xué)習(xí)”訓(xùn)練并不是擁有自我意識的自主學(xué)習(xí)，是通過收集大量樣本讓AI從海量數(shù)據(jù)中總結(jié)規(guī)律，再根據(jù)人類的指令，基于規(guī)律進行內(nèi)容再生產(chǎn)的過程，它同時受核心算法、硬件條件、數(shù)據(jù)庫樣本等多方面的限制。

一幅2018年時由神經(jīng)網(wǎng)絡(luò)生成的作品，研究員 Robbie Barrat 用大量裸體繪畫（主要是女性）訓(xùn)練而成。圖源：https://www.fastcompany.com/90165906/this-ai-dreams-in-nude-portraits-and-landscape-paintings

在2022年之前，AIGC領(lǐng)域使用最多的算法模型名為對抗生成網(wǎng)絡(luò) GAN (Generative adversarial networks)，顧名思義就是讓AI內(nèi)部的兩個程序互相對比，從而生成最接近人類心目中的正確形象。但這個算法有一個嚴(yán)重問題，由于程序互相對比的標(biāo)準(zhǔn)是現(xiàn)成的樣本，因此生成的內(nèi)容實質(zhì)上是對現(xiàn)有內(nèi)容無限逼近的模仿，而模仿，意味著它無法真正突破。

圖源：https://developers.google.com/machine-learning/gan/gan_structure

GAN的缺點被最終被 diffusion 擴散化模型克服，它正是今年以來陸續(xù)涌現(xiàn)的包括 Stable Diffusion 開源模型在內(nèi)的諸多 AIGC 圖片生成模型的技術(shù)核心。

diffusion 擴散化模型的原理類似給照片去噪點，通過學(xué)習(xí)給一張圖片去噪的過程來理解有意義的圖像是如何生成，因此diffusion 模型生成的圖片相比 GAN 模型精度更高，更符合人類視覺和審美邏輯，同時隨著樣本數(shù)量和深度學(xué)習(xí)時長的累積，diffusion 模型展現(xiàn)出對藝術(shù)表達風(fēng)格較好的模仿能力。

圖源：https://towardsdatascience.com/diffusion-models-made-easy-8414298ce4da

從今年初引起廣泛關(guān)注的 Disco Diffusion ，再到 DALL-E2、MidJourney 等模型都是基于Diffusion模型，而拿到融資的 Stable Diffusion 是其中最受歡迎的。由于 StabilityAI 對科技社區(qū)氛圍的擁護和對技術(shù)中立原則的認(rèn)同，Stable Diffusion 主動開放了自己的源代碼，不僅方便人們部署在本地使用（普通消費級顯卡既能滿足 Stable Diffusion 的硬件要求），還帶來了魔術(shù)般的用戶體驗：打開網(wǎng)址，輸入你想要畫面的關(guān)鍵字，等待幾分鐘，模型就會生成完成度非常高的圖片作品。普通人使用最尖端AI技術(shù)的門檻因此被降到最低，上線以來，僅通過官方平臺 DreamStudio 制作的生成圖片就超過1.7萬億張。

圖源：由Stable Diffusion 生成的圖片。圖源：StabilityAI 官網(wǎng)

AIGC沉寂許久的革命火種，瞬間燎原。

絢爛的藍海

以 StabilityAI 為代表的的AIGC圖片生成模型在如此短的時間內(nèi)發(fā)展到極為成熟的地步，預(yù)示著它從比較傳統(tǒng)的設(shè)計繪圖、插畫、游戲視覺，電子商務(wù)等領(lǐng)域到大熱的元宇宙和虛擬現(xiàn)實技術(shù)都擁有巨大的發(fā)展?jié)摿Α?/p>

圖源：輸入 AI wins 后 DreamStudio 基于 Stable Diffusion 生成的圖像

想象一下，在未來的VR/AR虛擬世界里，你腦海中想到的畫面可以借助ai生成技術(shù)實時渲染出來，這將會對人們娛樂和獲取信息的方式產(chǎn)生怎樣的顛覆？

但這不是市場在如今經(jīng)濟大環(huán)境極為低迷之際為AI投下贊成票的全部原因，廣泛的商業(yè)潛力固然吸引人，但更值得投入的是AI技術(shù)本身。這場革命還未完結(jié)，它的下一篇章已經(jīng)向人們走來。

那就是生成視頻。

從本質(zhì)上講，視頻是連續(xù)的靜態(tài)圖像，隨著 ai 圖片生成技術(shù)的日益成熟，許多人都把目光投向生成視頻領(lǐng)域，9月以來，Meta 和 Google 先后公布了自己在這一 AIGC 最前沿領(lǐng)域的最新成果。

Meta 的模型名為Make-A-Video，通過學(xué)習(xí)大量文本-圖像組合樣本數(shù)據(jù)和無文本標(biāo)記的視頻來理解真實世界中物體的運動邏輯，Make-A-Video能夠初步在構(gòu)建圖像的基礎(chǔ)上讓圖像動起來，同時擁有理解三維物體立體結(jié)構(gòu)的能力。

圖源：Meta 公布的相關(guān)論文https://arxiv.org/pdf/2209.14792.pdf

名為 imagen video 的模型則通過被稱為聯(lián)級擴散系列模型的方法生成視頻。也就是先通過基礎(chǔ)擴散模型生成分辨率較小的視頻，然后再通過一系列時間、空間超分辨率模型提升視頻的分辨率和幀數(shù)。

圖源：imagen video 官網(wǎng)

橫向比較來看，imagen 的視頻分辨率（1280X768 ）高于Make-A-Video，時長也略長一些。

圖源：Google 公布的相關(guān)論文 https://imagen.research.google/video/paper.pdf

但突破還不止于此，另一個名為 Phenaki 的AI視頻生成模型（也來自Google團隊）公布了其能夠根據(jù)文本內(nèi)容生成可變時長視頻的技術(shù)，也就是說 Phenaki 有從文本中提煉理解故事情節(jié)并將其轉(zhuǎn)化為視頻的能力。

公布的demo中，Phenaki 基于幾百個單詞組成的一連串有前后邏輯關(guān)系的文本指令生成了一段2分多鐘的連貫視頻，這種充滿鏡頭感、豐富情節(jié)和轉(zhuǎn)場的故事片雛形假以時日勢必對未來整個視頻行業(yè)，包括短視頻、電視電影等產(chǎn)生廣泛沖擊。

圖源：Phenaki 官網(wǎng)演示視頻

生成視頻模型尚在起步階段，在具體運動的細(xì)節(jié)、畫面精細(xì)度、不同物體和人的互動等方面尚顯稚嫩，從分辨率到畫質(zhì)上也有濃濃的“人工智能”痕跡，然而回想AI圖片生成模型同樣經(jīng)歷了從全網(wǎng)群嘲到逆襲的過程，后之視今亦猶今之視昔，誰又能說這未嘗不是AIGC革命下一個高潮即將來臨的預(yù)言？

圖源：Midjourney 根據(jù)指令 AI wins 生成的圖片

劇變帶來的爭議

劇烈的變化總是伴隨著爭議，以 Stable Diffusion 為代表的AIGC革命“圖像階段”也是如此，我們試著將其歸納為下面幾個問題并做出初步回答。

（1）AI生成內(nèi)容的版權(quán)問題該如何界定？

中國的著作權(quán)法中規(guī)定只有自然人或組織可以被認(rèn)定為作者，因此ai生成內(nèi)容并沒有享有著作權(quán)的實體。如果沒有更多協(xié)定約束，AI生成內(nèi)容可以被任意使用，包括商業(yè)使用在內(nèi)。Midjourney、Dell-e等都明確表示用戶擁有自己生成作品的所有權(quán)。

圖源：StabilityAI 官網(wǎng)關(guān)于版權(quán)問題的回應(yīng)

值得一提的是，很多AI生成技術(shù)深度學(xué)習(xí)訓(xùn)練所使用的數(shù)據(jù)庫中可能包含了侵權(quán)內(nèi)容，但因此導(dǎo)致用戶生成內(nèi)容侵權(quán)的可能性非常低，因為生成內(nèi)容本身是充滿高度隨機和不確定性的，即使陷入版權(quán)爭議，舉證過程也會極為困難。

（2）AI生成內(nèi)容是否具有藝術(shù)性？如果有，該如何評價與界定？

AI生成內(nèi)容的藝術(shù)性在半年之前還是個看著有些無聊的問題，但在《歌劇院空間》作品獲獎后，人們開始越來越多的談?wù)撍?/p>

圖源：紐約時報 https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html

總的來說，AI生成的內(nèi)容并不是自己創(chuàng)造的，它受自身模型算法和數(shù)據(jù)庫樣本容量影響，這也是許多人聲稱ai生成內(nèi)容“沒有靈魂”的原因。

然而僅僅把AI生成技術(shù)看做純粹的工具也是不公平的，因為它不僅可以模仿，而且算法和樣本一同提供了現(xiàn)有人類所不能完全提供的創(chuàng)作視角。

圖源：由Stable Diffusion 生成的圖片。圖源：StabilityAI 官網(wǎng)

現(xiàn)有的AI生成圖像技術(shù)已經(jīng)讓人們參與圖像創(chuàng)作的門檻變得無限低，因此對生成作品的藝術(shù)性鑒賞或許應(yīng)該從更細(xì)分的角度入手，正如 NFT 之于傳統(tǒng)藝術(shù)品一樣，它的價值需要經(jīng)過市場的檢驗，而藝術(shù)品市場對此正處于理解和接受的初級階段。

（3）AIGC革命的“圖像階段”對圖像工作者和藝術(shù)創(chuàng)作者來說意味著什么？

隨著AI生成技術(shù)“民主化”，未來中低端繪畫內(nèi)容和它的市場會被AI代替，這意味著大批腰部及以下的圖像工作者、插畫師、設(shè)計師等會失去現(xiàn)有工作。

隨著AI生成圖像內(nèi)容越來越豐富和逼真，它們也正在根本上解構(gòu)著商業(yè)圖片庫賴以生存的運營模式——如果圖片可以自己生成的話，誰還要花錢買圖呢？

圖源：gettyimages 關(guān)于AI生成內(nèi)容的聲明

但AI生成技術(shù)同樣拓展了人們對繪畫工具能力的理解。對藝術(shù)創(chuàng)作者來說，AI生成技術(shù)將有利于他們基于自身理念（而不是技法）創(chuàng)造更多維度，更具創(chuàng)造性的作品。

未來將會是創(chuàng)作者創(chuàng)造力的比拼，因為AI“消除了外行表達創(chuàng)造力的障礙。”（比約恩·奧姆所說，他的團隊開發(fā)出了 Stable Diffusion 最初的基礎(chǔ)算法。）

圖源：由Stable Diffusion 生成的圖片。圖源：StabilityAI 官網(wǎng)

（4）AI生成內(nèi)容應(yīng)該如何監(jiān)管，如何防止虛假信息和不適宜信息的傳播？

秉持技術(shù)中立態(tài)度的研究者例如 StabilityAI 會盡量減少對內(nèi)容的控制和干預(yù)。他們認(rèn)為一個開放和充分討論的社區(qū)將會逐步形成對信息內(nèi)容傳播的監(jiān)督機制。

“使用者自己需要為如何使用這項技術(shù)負(fù)責(zé)，這包括道德和法律上的合規(guī)性。”Stability AI 公司 CEO Emad Mostaque 曾在采訪中如此表示。

圖源：由Stable Diffusion 生成的圖片。圖源：StabilityAI 官網(wǎng)

與此同時，盡管深度學(xué)習(xí)所用到的數(shù)據(jù)庫經(jīng)過了嚴(yán)格的篩選，屏蔽了色情、暴力、恐怖等內(nèi)容，但有關(guān)社會刻板偏見、種族歧視等內(nèi)容尚無法從技術(shù)上完全消除，更重要的是，關(guān)于如何界定所謂偏見在倫理學(xué)上仍然是一個頗受爭議的問題。正因如此，Google 決定在排除相關(guān)風(fēng)險前推遲公開發(fā)布 imagen video 模型，而許多已發(fā)布的模型選擇為其生成作品加上不可去掉的水印來避免潛在爭議。

AIGC革命如火如荼進行中，它不是將來時，而是進行時。我們已經(jīng)身處其中。

現(xiàn)在就是未來。

THE END

責(zé)任編輯：趙龍

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

相關(guān)閱讀

展會預(yù)告

新品

多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品
近日，?？低暬谟^瀾大模型技術(shù)體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
誤報率降低90%以上！海康威視發(fā)布視覺大模型周界攝像機
更準(zhǔn)！?？低暟l(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》（以下簡稱“報告”），該報告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊，市場…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟，在市場變革中逆風(fēng)飛揚

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會，在深…

企業(yè)

來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
(電磁網(wǎng)捕器)提供了一種全新的、更高效的物理隔離和壓制手段。尤其在預(yù)案中針對特定突發(fā)情況的模擬處置演練…
應(yīng)用安全再升級！ Imperva Application Security平臺集成新功能
來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
熵基科技：用非侵入式腦機接口，重塑教育、醫(yī)療與養(yǎng)老的未來
華為開發(fā)者大會2025官宣“鴻蒙智選”小豚當(dāng)家成為首批合作伙伴
深耕垂直物聯(lián)場景，螢石藍海大模型2.0 升級引領(lǐng)行業(yè)再躍遷