Meta 開源首個(gè) AI 語音翻譯系統(tǒng)，閩南話和英語可以直接語音互譯！

2022-10-28 11:51 來源:界面新聞作者:李梅

機(jī)器翻譯是現(xiàn)今人類消除語言障礙、重建巴別塔的新工具。然而，在世界現(xiàn)存的 7000 多種已知語言中，許多低資源語言還未得到足夠的關(guān)注，尤其是有近一半的語言沒有標(biāo)準(zhǔn)的書面系統(tǒng)，這是構(gòu)建機(jī)器翻譯工具的一大障礙，所以目前 AI 翻譯主要集中在書面語言上。

在利用 AI 推動(dòng)自然語言翻譯這件事上，Meta 一直致力于 "No Language Left Behind"（沒有一種語言被落下）的目標(biāo)。

比如漢語方言之一閩南話，現(xiàn)在也有了專屬的機(jī)器翻譯系統(tǒng)，講閩南話的人可以與講英語的人進(jìn)行無障礙對(duì)話了。

這是由 Meta 開源的第一個(gè)由 AI 驅(qū)動(dòng)的非書面的、語音到語音的翻譯系統(tǒng)。來聽聽這項(xiàng)工作的負(fù)責(zé)人、Meta AI 研究員 Peng-Jen Chen 與小扎的對(duì)話，Chen 出生于中國(guó)臺(tái)灣。

視頻見：https://mp.weixin.qq.com/s/38dd-zUEtQkl2woo28wNjQ

該系統(tǒng)可以將閩南話的語音翻譯成英語語音，反之亦可。會(huì)講閩南話的讀者可以來檢驗(yàn)一下，是不是翻譯效果還挺不錯(cuò)？

據(jù)了解，這個(gè)開源翻譯系統(tǒng)是 Meta 的通用語音翻譯 ( UST ) 項(xiàng)目的一部分，該項(xiàng)目致力于開發(fā)新的人工智能方法，幫助實(shí)現(xiàn)所有現(xiàn)存語言的實(shí)時(shí)語音到語音的翻譯。目前，Meta 已經(jīng)開源了該翻譯模型和評(píng)估數(shù)據(jù)集，研究論文如下：

論文地址：https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf

克服訓(xùn)練數(shù)據(jù)的挑戰(zhàn)

閩南話是漢語方言之一，是一種低資源語言，沒有標(biāo)準(zhǔn)的書寫系統(tǒng)，人工的英語到閩南話翻譯人員也相對(duì)很少，所以為模型收集和標(biāo)注訓(xùn)練數(shù)據(jù)就變得更加困難。

圖注：講閩南話（Hokkien）的人的數(shù)量

為此，來自 Meta AI 的研究團(tuán)隊(duì)采用了一種特殊放方案，利用漢語普通話（屬于高資源語言）作為中間語言來構(gòu)建偽標(biāo)簽和人工翻譯。他們首先將英語（或閩南話）語音翻譯成普通話文本，然后再翻譯成閩南話（或英語）并將其添加到訓(xùn)練數(shù)據(jù)中。這種方法通過利用來自類似高資源語言的數(shù)據(jù)，極大地提高了模型性能。

語音挖掘是訓(xùn)練數(shù)據(jù)生成的另一種方法。使用預(yù)訓(xùn)練的語音編碼器，能夠?qū)㈤}南話語音嵌入編碼到與其他語言相同的語義空間中，所以閩南話沒有書面形式也不造成問題。閩南話語音可以與語義嵌入相似的英語語音和文本對(duì)齊，然后從文本中合成英語語音，產(chǎn)生并行的閩南話和英語語音。

圖注：無需人類標(biāo)注的語音翻譯模型

新的建模方法：語音到語音

許多語音翻譯系統(tǒng)都依賴轉(zhuǎn)錄或者是語音到文本的系統(tǒng)。但是，閩南話的形式主要是口語，缺乏標(biāo)準(zhǔn)的書面文字系統(tǒng)，無法轉(zhuǎn)錄成文本作。所以，Meta 所構(gòu)建的是一個(gè)語音到語音的翻譯系統(tǒng)。

研究人員使用語音到單元（speech-to-unit，S2UT）翻譯，將輸入語音直接翻譯成一系列的聲學(xué)單元，這也是 Meta 先前最早開創(chuàng)的一種路徑。然后，從這些聲學(xué)單元中生成波形。此外，研究人員還采用了 UnitY 作為雙通道解碼機(jī)制，第一通道解碼器生成相關(guān)語言（即漢語普通話）的文本，第二通道解碼器創(chuàng)建單元。

圖注：UnitY 模型架構(gòu)

新的準(zhǔn)確性評(píng)估系統(tǒng)

語音翻譯系統(tǒng)的評(píng)估工具通常是 ASR-BLEU 指標(biāo)，該指標(biāo)首先使用自動(dòng)語音識(shí)別 ( ASR ) 將翻譯后的語音轉(zhuǎn)錄為文本，然后將轉(zhuǎn)錄文本與人工翻譯的文本進(jìn)行比較，計(jì)算 BLEU 分?jǐn)?shù)。

但要評(píng)估閩南話的語音翻譯系統(tǒng)，難處還是在于它沒有標(biāo)準(zhǔn)的書面文字系統(tǒng)。所以，為了實(shí)現(xiàn)自動(dòng)評(píng)估，研究人員開發(fā)了一個(gè)系統(tǒng)，將閩南語語音轉(zhuǎn)錄為一種稱為 T â i-l ô 的標(biāo)準(zhǔn)化注音符號(hào)。這樣就能在音節(jié)的層面上計(jì)算 BLEU 分?jǐn)?shù)，從而比較不同方法的翻譯質(zhì)量。

除了開發(fā)這種評(píng)估閩 - 英語音翻譯的方法外，研究人員還基于閩南話語料庫(kù) Taiwanese Across Taiwan，創(chuàng)建了第一個(gè)閩 - 英雙向語音到語音翻譯基準(zhǔn)數(shù)據(jù)集。該基準(zhǔn)數(shù)據(jù)集將開源，以方便更多研究人員從事閩南話語音翻譯工作。

不止閩南話

這項(xiàng)工作所用技術(shù)可以進(jìn)一步擴(kuò)展到許多其他書面和非書面語言。

為此，Meta 還發(fā)布了 SpeechMatrix，它是一個(gè)大型的語音到語音翻譯語料庫(kù)，使用了 Meta 的創(chuàng)新數(shù)據(jù)挖掘技術(shù) LASER，從歐洲議會(huì)錄音的真實(shí)演講中挖掘數(shù)據(jù)。該數(shù)據(jù)庫(kù)包含 136 種語言對(duì)的語音對(duì)齊，共 41.8 萬小時(shí)的語音。挖掘的數(shù)據(jù)和模型都是免費(fèi)的，研究人員可以創(chuàng)建自己的語音到語音翻譯 ( S2ST ) 系統(tǒng)。

圖注：LASER 挖掘獲得的語音到語音成對(duì)數(shù)據(jù)

Meta 在無監(jiān)督語音識(shí)別 ( wav2vec-U ) 和無監(jiān)督機(jī)器翻譯 ( mBART ) 方面的研究進(jìn)展，也為口語翻譯工作提供了支持。比如用于預(yù)訓(xùn)練語音模型的無監(jiān)督域自適應(yīng)技術(shù)，提高了下游無監(jiān)督語音識(shí)別的性能，尤其是對(duì)于低資源語言，在沒有任何人工標(biāo)注的情況下，可以構(gòu)建高質(zhì)量語音到語音翻譯模型。

該模型仍在不斷推進(jìn)中，目前一次只能翻譯一個(gè)完整的句子，但這邁出了未來實(shí)現(xiàn)語言間同聲傳譯的一步。

據(jù) Meta AI 的研究員 Peng-Jen Chen 說，這個(gè)閩南話翻譯系統(tǒng)其實(shí)有一部分是出于他的一個(gè)私人心愿。他在中國(guó)臺(tái)灣長(zhǎng)大，同時(shí)會(huì)講普通話，但是他的父親普通話不好，他希望他的父親能夠用閩南話與每個(gè)人都順暢地交流。這也是 AI 之于人類的意義之一。

參考鏈接：https://ai.facebook.com/blog/ai-translation-hokkien/

THE END

責(zé)任編輯：趙龍

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請(qǐng)聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請(qǐng)諒解！

相關(guān)閱讀

展會(huì)預(yù)告

新品

多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲(chǔ)系列產(chǎn)品
近日，海康威視基于觀瀾大模型技術(shù)體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
誤報(bào)率降低90%以上！?？低暟l(fā)布視覺大模型周界攝像機(jī)
更準(zhǔn)！?？低暟l(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲(chǔ)系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》（以下簡(jiǎn)稱“報(bào)告”），該報(bào)告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場(chǎng) “不確定性”因素的沖擊，市場(chǎng)…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟，在市場(chǎng)變革中逆風(fēng)飛揚(yáng)

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國(guó)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì)，在深…

企業(yè)

來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護(hù)航夏季達(dá)沃斯論壇
(電磁網(wǎng)捕器)提供了一種全新的、更高效的物理隔離和壓制手段。尤其在預(yù)案中針對(duì)特定突發(fā)情況的模擬處置演練…
應(yīng)用安全再升級(jí)！ Imperva Application Security平臺(tái)集成新功能
來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護(hù)航夏季達(dá)沃斯論壇
熵基科技：用非侵入式腦機(jī)接口，重塑教育、醫(yī)療與養(yǎng)老的未來
華為開發(fā)者大會(huì)2025官宣“鴻蒙智選”小豚當(dāng)家成為首批合作伙伴
深耕垂直物聯(lián)場(chǎng)景，螢石藍(lán)海大模型2.0 升級(jí)引領(lǐng)行業(yè)再躍遷

Meta 開源首個(gè) AI 語音翻譯系統(tǒng)，閩南話和英語可以直接語音互譯！

Meta 開源首個(gè) AI 語音翻譯系統(tǒng)，閩南話和英語可以直接語音互譯！