繼各類單一模態(tài)輸入的多模態(tài)語言模型后,新加坡國立大學(xué)的華人團(tuán)隊最近開源了全能多模態(tài)模型NExT-GPT。該模型支持任意模態(tài)的輸入和輸出,可以實現(xiàn)文本、圖像、語音和視頻之間的自由轉(zhuǎn)換,是第一個實現(xiàn)從任一模態(tài)到任一模態(tài)轉(zhuǎn)換的通用多模態(tài)系統(tǒng)。
image.png© 由 站長之家 提供
項目地址:https://next-gpt.github.io
代碼地址:https://github.com/NExT-GPT/NExT-GPT
論文地址:https://arxiv.org/abs/2309.05519
NExT-GPT的優(yōu)勢在于它實現(xiàn)了真正意義上的任意模態(tài)輸入到任意模態(tài)輸出,而不是僅僅支持某一種固定的輸入輸出模式。用戶可以隨意組合不同模態(tài)進(jìn)行查詢,NExT-GPT都可以進(jìn)行理解并用請求的模態(tài)形式給出響應(yīng)。這充分模擬了人類處理信息的能力,是向通用人工智能目標(biāo)邁進(jìn)的重要一步。
image.png© 由 站長之家 提供
在技術(shù)上,NExT-GPT并沒有創(chuàng)新算法,而是站在巨人的肩膀上,通過組合優(yōu)化利用現(xiàn)有的各類開源模塊實現(xiàn)全能目標(biāo)。具體來說,模型包含三個層次:第一,使用各類模態(tài)編碼器對輸入進(jìn)行編碼;第二,語言模型負(fù)責(zé)復(fù)雜推理;第三,解碼器生成各種模態(tài)輸出。
image.png© 由 站長之家 提供
NExT-GPT的獨特之處在于實現(xiàn)了模態(tài)特征表達(dá)的端到端對齊訓(xùn)練,以及針對多模態(tài)輸出做了指令微調(diào)。這保證了在輸入理解、內(nèi)部推理和輸出生成各層次間特征的有效傳遞,從而實現(xiàn)了優(yōu)秀的多模態(tài)理解與生成能力。
雖然NExT-GPT目前還有待進(jìn)一步擴(kuò)展,但其展示了構(gòu)建通用多模態(tài)系統(tǒng)的可能性,為人工智能研究提供了寶貴的借鑒。后續(xù)工作可以考慮擴(kuò)展更多模態(tài),使用更大規(guī)模的語言模型基座,以及改進(jìn)多模態(tài)生成策略等。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…