新加坡華人團隊開源全能「大一統(tǒng)」多模態(tài)大模型NExT-GPT

2023-09-19 14:50

繼各類單一模態(tài)輸入的多模態(tài)語言模型后，新加坡國立大學的華人團隊最近開源了全能多模態(tài)模型NExT-GPT。該模型支持任意模態(tài)的輸入和輸出，可以實現(xiàn)文本、圖像、語音和視頻之間的自由轉換，是第一個實現(xiàn)從任一模態(tài)到任一模態(tài)轉換的通用多模態(tài)系統(tǒng)。

image.png© 由站長之家提供

項目地址:https://next-gpt.github.io

代碼地址:https://github.com/NExT-GPT/NExT-GPT

論文地址:https://arxiv.org/abs/2309.05519

NExT-GPT的優(yōu)勢在于它實現(xiàn)了真正意義上的任意模態(tài)輸入到任意模態(tài)輸出，而不是僅僅支持某一種固定的輸入輸出模式。用戶可以隨意組合不同模態(tài)進行查詢，NExT-GPT都可以進行理解并用請求的模態(tài)形式給出響應。這充分模擬了人類處理信息的能力，是向通用人工智能目標邁進的重要一步。

image.png© 由站長之家提供

在技術上，NExT-GPT并沒有創(chuàng)新算法，而是站在巨人的肩膀上，通過組合優(yōu)化利用現(xiàn)有的各類開源模塊實現(xiàn)全能目標。具體來說，模型包含三個層次:第一，使用各類模態(tài)編碼器對輸入進行編碼;第二，語言模型負責復雜推理;第三，解碼器生成各種模態(tài)輸出。

image.png© 由站長之家提供

NExT-GPT的獨特之處在于實現(xiàn)了模態(tài)特征表達的端到端對齊訓練，以及針對多模態(tài)輸出做了指令微調。這保證了在輸入理解、內部推理和輸出生成各層次間特征的有效傳遞，從而實現(xiàn)了優(yōu)秀的多模態(tài)理解與生成能力。

雖然NExT-GPT目前還有待進一步擴展，但其展示了構建通用多模態(tài)系統(tǒng)的可能性，為人工智能研究提供了寶貴的借鑒。后續(xù)工作可以考慮擴展更多模態(tài)，使用更大規(guī)模的語言模型基座，以及改進多模態(tài)生成策略等。

THE END

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

相關閱讀

展會預告

新品

多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品
近日，?？低暬谟^瀾大模型技術體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應用系列高性能端側視覺AI SoC芯片A1
誤報率降低90%以上！?？低暟l(fā)布視覺大模型周界攝像機
更準！海康威視發(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應用系列高性能端側視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》（以下簡稱“報告”），該報告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內的諸多行業(yè)領域都遭受了來自市場 “不確定性”因素的沖擊，市場…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務之舟，在市場變革中逆風飛揚

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會，在深…

企業(yè)

來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
(電磁網(wǎng)捕器)提供了一種全新的、更高效的物理隔離和壓制手段。尤其在預案中針對特定突發(fā)情況的模擬處置演練…
應用安全再升級！ Imperva Application Security平臺集成新功能
來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
熵基科技：用非侵入式腦機接口，重塑教育、醫(yī)療與養(yǎng)老的未來
華為開發(fā)者大會2025官宣“鴻蒙智選”小豚當家成為首批合作伙伴
深耕垂直物聯(lián)場景，螢石藍海大模型2.0 升級引領行業(yè)再躍遷