當(dāng)你向世界發(fā)布數(shù)字助理時(shí),你希望它永遠(yuǎn)不會(huì)說(shuō)“你能重復(fù)一遍嗎?”
這四個(gè)詞表示人類與機(jī)器人對(duì)話的失敗。也許機(jī)器人沒(méi)有接受過(guò)用戶口音的訓(xùn)練。也許用戶的請(qǐng)求可以以多種不同的方式解釋,而機(jī)器人不確定如何推進(jìn)對(duì)話。也許機(jī)器人根本無(wú)法處理部署它的嘈雜環(huán)境——例如在餐廳。而無(wú)論出于什么原因,說(shuō)“你能重復(fù)一遍嗎”都會(huì)導(dǎo)致用戶失去信心,機(jī)器人無(wú)法滿足用戶需求。這使得整個(gè)事情變得毫無(wú)意義。
那么,你如何避免那些災(zāi)難性的四個(gè)詞呢?這正是客戶關(guān)心的,也是科技公司關(guān)心的,作為語(yǔ)音機(jī)器人的從業(yè)人員,在此分享語(yǔ)音機(jī)器人成功的6個(gè)步驟。
1.ASR技術(shù)的重要性
當(dāng)您與機(jī)器人交談時(shí),轉(zhuǎn)錄是您所說(shuō)內(nèi)容的技術(shù)。你會(huì)聽(tīng)到行業(yè)內(nèi)部人士談?wù)撜Z(yǔ)音轉(zhuǎn)文本或自動(dòng)語(yǔ)音識(shí)別(ASR),但他們實(shí)際上是一回事——轉(zhuǎn)錄用戶口語(yǔ)的技術(shù)。
糟糕的轉(zhuǎn)錄只是意味著用戶被誤解了。例如,他們說(shuō)北京地鐵站“上地”,但轉(zhuǎn)錄是“上帝”。從那一刻起,機(jī)器人可能試圖將對(duì)話帶向一個(gè)完全無(wú)關(guān)緊要的方向。更糟糕的是語(yǔ)音機(jī)器人說(shuō)“對(duì)不起,你能重復(fù)一遍嗎?”
因此,語(yǔ)音轉(zhuǎn)文本的有效性對(duì)與語(yǔ)音機(jī)器人的對(duì)話產(chǎn)生了巨大影響。準(zhǔn)確的對(duì)話轉(zhuǎn)文本不僅要讓對(duì)話保持正常,而且是首先開(kāi)始對(duì)話所需的第一個(gè)要素。
有可能獲得完美的轉(zhuǎn)錄嗎?
最好的轉(zhuǎn)錄員是人類,甚至人類也會(huì)犯錯(cuò)誤。人類最好的理解能力能夠獲得 99% 的準(zhǔn)確率。這已經(jīng)足夠好了。但是隨著深度學(xué)習(xí)的進(jìn)步,語(yǔ)音機(jī)器人與人類相當(dāng)?shù)淖R(shí)別率成為可能。
2.響應(yīng)時(shí)間的挑戰(zhàn)
當(dāng)您向朋友發(fā)送短信時(shí),您不會(huì)希望他們?cè)诤撩雰?nèi)回復(fù)。但是聲音不同,我們預(yù)計(jì)語(yǔ)音響應(yīng)要比文本快得多。但是在中國(guó),語(yǔ)音對(duì)話的平均等待時(shí)間為0.74秒。時(shí)間要比預(yù)計(jì)長(zhǎng)得多。這樣的話,用戶就認(rèn)為他們被機(jī)器人誤解了,或者他們認(rèn)為機(jī)器人忽視了他們。無(wú)論如何,這造成了糟糕的客戶體驗(yàn)。
那么讓我們來(lái)看一下這個(gè)等待時(shí)間語(yǔ)音機(jī)器人都做了什么,包括:
1、收集用戶的音頻輸入(他們的單詞以及其他可能的符號(hào),如情感)
2、轉(zhuǎn)錄所說(shuō)的話
3、讓機(jī)器人理解清楚這些話的意思
4、機(jī)器人分析用戶想做什么
5、在為用戶生成應(yīng)答的同時(shí),為用戶提供他們需要的東西
所有這些都比眨眼所需的時(shí)間多一點(diǎn)。
響應(yīng)時(shí)間是一個(gè)很大的挑戰(zhàn)。機(jī)器人必須以實(shí)時(shí)的方式做出反應(yīng)。因此,您需要一個(gè)技術(shù)堆棧,可以快速處理大量數(shù)據(jù),并協(xié)同工作,以類似人類的響應(yīng)時(shí)間扭轉(zhuǎn)對(duì)話轉(zhuǎn)折。
3.從目標(biāo)業(yè)務(wù)中訓(xùn)練您的模型
您用于訓(xùn)練ASR模型的數(shù)據(jù)應(yīng)特定于您的用例。如果您出售保險(xiǎn),您的用戶在致電您時(shí)將使用特定的單詞和短語(yǔ)。這些話語(yǔ)可能與您在公司內(nèi)部使用的短語(yǔ)不同。這就需要你思考一個(gè)問(wèn)題:“誰(shuí)會(huì)和這個(gè)機(jī)器人說(shuō)話?”即你的目標(biāo)人群是誰(shuí)。
如果是為了公司內(nèi)部使用,那么繼續(xù)使用您在公司視頻通話中使用的術(shù)語(yǔ)進(jìn)行培訓(xùn)。如果是針對(duì)一部分公眾的,那么您必須使用公眾音頻來(lái)代表他們談?wù)撨@些事情的方式。
您使用的音頻具備以下:
客戶使用的單詞和短語(yǔ)
客戶可能擁有的各種口音
您的客戶將在物理環(huán)境中與您交談
為此,您需要一個(gè)語(yǔ)音識(shí)別系統(tǒng),允許您針對(duì)特定用例重新訓(xùn)練模型。也可以通過(guò)第三方科技公司為您的企業(yè)模型進(jìn)行訓(xùn)練。目前以沃豐科技為例的科技公司提供這樣的服務(wù),
4.從你能得到的最好的TTS開(kāi)始,然后改進(jìn)它
目前隨著科技的發(fā)展,新一波語(yǔ)音識(shí)別初創(chuàng)公司,從一開(kāi)始就實(shí)現(xiàn)了85%至90%的識(shí)別精度。而傳統(tǒng)提供商的準(zhǔn)確率為65%至75%。這是一個(gè)很好的開(kāi)端,但可以進(jìn)一步改進(jìn)。
一旦您為您的用例選擇了最好的TTS提供商,您將需要根據(jù)您的需求調(diào)整模型。也許它缺少詞匯量,或者它不理解您所在地區(qū)的特定口音,或者您的機(jī)器人將被部署在嘈雜的環(huán)境中。
通過(guò)專注于滿足這些獨(dú)特需求的訓(xùn)練數(shù)據(jù),您將改進(jìn)您的機(jī)器人,并通過(guò)語(yǔ)音識(shí)別實(shí)現(xiàn)更高的準(zhǔn)確性。
如何為特定用例訓(xùn)練語(yǔ)音識(shí)別模型,分為兩種方式:
內(nèi)部ASR培訓(xùn)
如果將自己的團(tuán)隊(duì)聚集在一起完成這項(xiàng)任務(wù)是有意義的,那么好處是您可以確保涵蓋域中的特定語(yǔ)言。外包這項(xiàng)工作的風(fēng)險(xiǎn)是,它是由對(duì)您的特定語(yǔ)言需求不敏感的人執(zhí)行的。換句話說(shuō),您將能夠比任何人都更好地標(biāo)記您的數(shù)據(jù)。
外包ASR培訓(xùn)
如果外包更適合您,那么在工作開(kāi)始前制定“風(fēng)格指南”至關(guān)重要。在這里,您將描述用戶可能說(shuō)的各種事情以及它們的意思。這將有助于外包數(shù)據(jù)標(biāo)簽團(tuán)隊(duì)保持其工作的一致性和準(zhǔn)確性。
對(duì)于外包企業(yè)對(duì)選擇,企業(yè)需要選擇一個(gè)擁有豐富服務(wù)經(jīng)驗(yàn)的公司,進(jìn)行定制化的模型訓(xùn)練。以沃豐科技為例,作為中國(guó)人工智能與營(yíng)銷服務(wù)解決方案提供商,服務(wù)過(guò)眾多世界500強(qiáng)、中國(guó)500強(qiáng),具有豐富的模型訓(xùn)練經(jīng)驗(yàn)。經(jīng)驗(yàn)豐富的公司不僅能夠根據(jù)公司的業(yè)務(wù)需求進(jìn)行訓(xùn)練,還能夠提供成功案例的經(jīng)驗(yàn)借鑒,以及豐富的數(shù)據(jù)存儲(chǔ)用于模型訓(xùn)練,一般來(lái)說(shuō)數(shù)據(jù)越多則意味著ASR識(shí)別越準(zhǔn)確。
5.語(yǔ)義理解的重要性
關(guān)于語(yǔ)義理解,這里有三件事需要記住:
每個(gè)用戶都可以以自己獨(dú)特的方式進(jìn)行溝通,但您的NLP必須能夠理解您說(shuō)的所有內(nèi)容。
NLP必須能夠消除具有不同含義的類似措辭之間的歧義,例如“碰撞”意味著車輛事故或計(jì)算機(jī)死機(jī)。
你需要一個(gè)持續(xù)改進(jìn)的策略。您將收到反饋,顯示您在哪里犯了一致的錯(cuò)誤——您將如何納入這些反饋以提高語(yǔ)義理解?
通過(guò)對(duì)客戶特定歷史記錄數(shù)據(jù)的模型進(jìn)行培訓(xùn),進(jìn)一步提高了理解的準(zhǔn)確性。這對(duì)于機(jī)器人理解語(yǔ)義很重要。
以某鑒別與購(gòu)物一體化的購(gòu)物APP為例,它曾和沃豐科技合作過(guò)關(guān)于文本交互的質(zhì)檢,因此沃豐科技具有其文本數(shù)據(jù)進(jìn)行模型訓(xùn)練,當(dāng)后期有其他例如語(yǔ)音信息質(zhì)檢時(shí),沃豐科技就能夠擁有豐富的歷史數(shù)據(jù),豐富的數(shù)據(jù)將使得其語(yǔ)音識(shí)別與理解的模型訓(xùn)練更為準(zhǔn)確。所以對(duì)于已經(jīng)所合作的科技公司可以是你的優(yōu)先選擇。
6.你無(wú)法修復(fù)你不知道的東西
誰(shuí)知道機(jī)器人的問(wèn)題,誰(shuí)有能力解決這些問(wèn)題?對(duì)話設(shè)計(jì)師、數(shù)據(jù)科學(xué)家或開(kāi)發(fā)人員是否知道機(jī)器人遇到了什么問(wèn)題?如果他們不知道反復(fù)出現(xiàn)的問(wèn)題,他們就無(wú)法調(diào)整設(shè)計(jì)來(lái)克服這些問(wèn)題。
在中國(guó),由于SaaS軟件提供商的興盛,很多企業(yè)用到語(yǔ)音機(jī)器人是在云端部署的,企業(yè)自身并不具備自主升級(jí)的能力,大多數(shù)企業(yè)并沒(méi)有根據(jù)自己的業(yè)務(wù)對(duì)軟件進(jìn)行個(gè)性化升級(jí)。小部分企業(yè)有這個(gè)意識(shí),但是在企業(yè)內(nèi)部配置運(yùn)維人員崗位,是一個(gè)成本極高的事情。
沃豐科技推出了AI訓(xùn)練師的服務(wù),能夠進(jìn)行全業(yè)務(wù)場(chǎng)景挖掘、知識(shí)庫(kù)整合梳理、AI業(yè)務(wù)流程配置、持續(xù)訓(xùn)練與運(yùn)營(yíng),能夠全程迅速快捷地為企業(yè)智能客服的優(yōu)化升級(jí)提供助力。
結(jié)論
語(yǔ)音機(jī)器人需要了解人類,人類也需要了解語(yǔ)音機(jī)器人。自動(dòng)語(yǔ)音識(shí)別和自然語(yǔ)言理解是人工智能會(huì)話的核心元素,它促進(jìn)了機(jī)器人理解人類語(yǔ)音的能力。你如何選擇、實(shí)施和調(diào)整這兩種技術(shù)將對(duì)你創(chuàng)建真正理解人的語(yǔ)音助手產(chǎn)生重大影響,最終達(dá)成使機(jī)器人從不說(shuō)“對(duì)不起,你能再重復(fù)一遍嗎?”的目標(biāo)。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡(jiǎn)稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來(lái)自市場(chǎng) “不確定性”因素的沖擊,市場(chǎng)…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場(chǎng)變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國(guó)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…