據(jù)信,該技術(shù)可以在低質(zhì)量的連接上實(shí)現(xiàn)高質(zhì)量的通話和音樂。
上圖:音頻波中數(shù)據(jù)的圖示。
上周,Meta宣布了一種名為“EnCodec”的人工智能音頻壓縮方法,據(jù)報(bào)道,該方法可以以64kbps的速度壓縮比MP3格式小10倍的音頻,而且質(zhì)量不會損失。據(jù) Meta 說,這種技術(shù)可以在低帶寬的連接中顯著提高語音的音質(zhì),比如在服務(wù)不穩(wěn)定的地區(qū)打電話。這種方法也適用于音樂。
Meta于10月25日在一篇題為《高保真神經(jīng)音頻壓縮》的論文中首次發(fā)布了這項(xiàng)技術(shù),作者是Meta AI研究人員Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta 也在其博客上總結(jié)了關(guān)于 EnCodec 的研究。
上圖:Meta聲稱其新的音頻編碼器/解碼器可以壓縮比MP3小10倍的音頻。
Meta將其方法描述為一個(gè)訓(xùn)練有素的三部分系統(tǒng),將音頻壓縮到所需的目標(biāo)大小。首先,編碼器將未壓縮的數(shù)據(jù)轉(zhuǎn)換為較低幀率的“潛在空間”表示。然后,“量化器”將表示壓縮到目標(biāo)大小,同時(shí)跟蹤最重要的信息,這些信息稍后將用于重建原始信號。(這個(gè)壓縮信號是通過網(wǎng)絡(luò)發(fā)送或保存到磁盤的。)最后,解碼器利用單個(gè)CPU上的神經(jīng)網(wǎng)絡(luò)將壓縮數(shù)據(jù)實(shí)時(shí)轉(zhuǎn)換回音頻。
事實(shí)證明,Meta使用“鑒別器”是創(chuàng)造這種方法的關(guān)鍵,這種方法可以在不丟失信號的關(guān)鍵元素的情況下盡可能地壓縮音頻,使其具有獨(dú)特性和可識別性:
“有損壓縮的關(guān)鍵是識別人類無法感知的變化,因?yàn)樵诘捅忍芈氏虏豢赡軐?shí)現(xiàn)完美重建。為此,我們使用‘鑒別器’來提高生成樣本的感知質(zhì)量。這就形成了一個(gè)貓捉老鼠的游戲,其中鑒別器的工作是區(qū)分真實(shí)樣本和重構(gòu)樣本。壓縮模型試圖通過推動重構(gòu)樣本與原始樣本在感知上更相似,來生成樣本來欺騙鑒別器。”
值得注意的是,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行音頻壓縮和解壓并不是什么新鮮事,特別是在語音壓縮方面,但 Meta 的研究人員聲稱他們是第一個(gè)將該技術(shù)應(yīng)用于48千赫立體聲音頻(略好于CD的44.1千赫采樣率)的團(tuán)隊(duì),這是互聯(lián)網(wǎng)上分發(fā)的音樂文件的典型采樣率。
上圖:說明Meta的EnCodec壓縮工作原理的框圖。
至于應(yīng)用,Meta表示,這種由人工智能驅(qū)動的“音頻超壓縮”可以在惡劣的網(wǎng)絡(luò)條件下支持“更快、更高質(zhì)量的通話”。當(dāng)然,由于是元數(shù)據(jù),研究人員也提到了 EnCodec 的元數(shù)據(jù)的含義,稱該技術(shù)最終可以提供“豐富的元數(shù)據(jù)體驗(yàn),而不需要重大的帶寬改進(jìn)”。
除此之外,也許有一天我們還能從中獲得非常小的音樂音頻文件。目前,Meta的新技術(shù)仍處于研究階段,但它預(yù)示著未來高質(zhì)量音頻可以使用更少的帶寬,這對流媒體網(wǎng)絡(luò)負(fù)擔(dān)過重的移動寬帶提供商來說將是一個(gè)好消息。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…