清華大學(xué)電子工程系日前與字節(jié)跳動的火山語音團隊攜手合作,推出一款開源大語言模型 SALMONN。
清華大學(xué)聯(lián)合字節(jié)跳動,開源聽覺大語言模型 SALMONN© 由 IT之家 提供
▲ 圖源 SALMONN 的 GitHub 頁面
IT之家經(jīng)過查詢得知,SALMONN 模型支持語音、音頻以及音樂輸入,它可以感知和理解不同類型的音頻內(nèi)容輸入,并具備多語言語音識別和翻譯以及語音推理等功能。
▲ 官方發(fā)布的模型解析圖
官方表示,SALMONN 支持語音、音頻以及音樂輸入,它可以感知和理解不同類型的音頻內(nèi)容輸入,并具備多語言語音識別和翻譯以及語音推理等功能。
清華大學(xué)聯(lián)合字節(jié)跳動,開源聽覺大語言模型 SALMONN© 由 IT之家 提供
▲ 圖源 SALMONN 的 Demo 頁面
官方同時表示,目前 SALMONN 能夠勝任英語語音識別、英語到中文的語音翻譯、情感識別、音頻字幕生成、音樂描述等重要的語音和音頻任務(wù),同時又涌現(xiàn)出多種在模型訓(xùn)練中沒有專門學(xué)習(xí)過的多語言和跨模態(tài)能力,涵蓋非英語語音識別、英語到(中文以外)其他語言的語音翻譯、對語音內(nèi)容的摘要和關(guān)鍵詞提取、基于音頻的故事生成、音頻問答、語音和音頻聯(lián)合推理等任務(wù)。
目前該模型已經(jīng)發(fā)布于 GitHub 中,官方同時放出了項目的 Demo 鏈接,感興趣的小伙伴們可以前往了解。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…