Sora停滯于已公開的 60 秒 demo,國內(nèi)視頻生成模型的發(fā)展卻頻頻給產(chǎn)業(yè)界帶來驚喜。CogVideoX是智譜AI視頻生成模型的開源版本,與智譜清影同源,架構(gòu)為DiT。截至今日,已在Github攬獲5.4k Star,被譽為是國內(nèi)首個人人可用的Sora。
現(xiàn)無問芯穹Infini-AI異構(gòu)云平臺的GenStudio大模型服務(wù)平臺已上架CogVideoX 2B。通過使用申請的開發(fā)者已可通過GenStudio體驗和使用CogVideoX 2B文生視頻模型能力。
無問芯穹GenStudio模型筆記
模型能力概覽:CogVideoX支持固定720*480分辨率和8fp/s幀率視頻生成,每次生成視頻長度為6秒共48幀,是目前效果最好的開源視頻生成模型之一,生成視頻在動作細節(jié)和視頻流暢度等方面相比以往公開模型有較大的提升,對文本Prompt的感知能力較強,能有效支持可控生成。
未來應(yīng)用潛力:我們認為在當前多媒體類工作流程中,視頻生成模型已可以應(yīng)用于劇本背景設(shè)定、畫面風(fēng)格、劇情走向等內(nèi)容的生產(chǎn)與快速效果驗證,結(jié)合專業(yè)人員的圖像處理和視頻編輯工作,能更高效地產(chǎn)出Demo內(nèi)容。文生視頻類的模型,使得概念從想象和文字,到可視化效果驗證的路徑大幅度縮短了。
CogVideoX 2B 性能與效果
智譜AI使用了VBench中的多個指標,如人類動作、場景、動態(tài)程度等,以及Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score兩個專注于視頻的動態(tài)特性的視頻評估工具來評估CogVideoX的文生視頻性能。
針對CogVideoX 2B主要理解內(nèi)容為英文Prompt的情況,無問芯穹提供了一鍵翻譯和潤色Prompt能力。基于平臺預(yù)置的大語言模型,將用戶的中文描述內(nèi)容自動轉(zhuǎn)為英文,并進行相應(yīng)的視頻細節(jié)補充,使得模型可以在更豐富描述詞的基礎(chǔ)上生成相應(yīng)的內(nèi)容。
GenStudio大模型服務(wù)平臺
GenStudio內(nèi)置于無問芯穹Infini-AI異構(gòu)云平臺,現(xiàn)已上架包括CogVideoX 2B、Llama 3.1 70B、Qwen2 72B、GLM4 9B、Stable Diffusion在內(nèi)的多種大語言模型、文生圖及文生視頻模型。GenStudio針對生成式大模型的應(yīng)用落地的多種場景需求,為應(yīng)用開發(fā)者提供高性能、易上手、安全可靠的大模型服務(wù),覆蓋從大模型開發(fā)到大模型服務(wù)化部署的全流程。
使用GenStudio時,大模型應(yīng)用開發(fā)團隊無需關(guān)注機器、開發(fā)環(huán)境等大模型開發(fā)要素,可以直接在這個平臺上體驗、對比各種模型能力和芯片效果,通過簡單拖拽各種參數(shù)按鈕的動作,精調(diào)出更貼合業(yè)務(wù)的大模型并完成部署,最快三天就可開發(fā)一個大模型應(yīng)用。GenStudio已成功幫助多個團隊有效降低技術(shù)負擔(dān)、提高了調(diào)試效率并簡化了開發(fā)流程。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…