技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場(chǎng)景越多,得到的真實(shí)數(shù)據(jù)越多,挖掘的用戶需求也更準(zhǔn)確,這幫助了語(yǔ)音識(shí)別技術(shù)快速進(jìn)步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實(shí)際問(wèn)題,這也是語(yǔ)音識(shí)別相對(duì)其他AI技術(shù)為明顯的優(yōu)勢(shì)。不過(guò),我們也要看到,語(yǔ)音識(shí)別的內(nèi)涵必須不斷擴(kuò)展,狹義語(yǔ)音識(shí)別必須走向廣義語(yǔ)音識(shí)別,致力于讓機(jī)器聽(tīng)懂人類語(yǔ)言,這才能將語(yǔ)音識(shí)別研究帶到更高維度。我們相信,多技術(shù)、多學(xué)科、多傳感的融合化將是未來(lái)人工智能發(fā)展的主流趨勢(shì)。在這種趨勢(shì)下,我們還有很多未來(lái)的問(wèn)題需要探討,比如鍵盤、鼠標(biāo)、觸摸屏和語(yǔ)音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?語(yǔ)音識(shí)別可以作為一種廣義的自然語(yǔ)言處理技術(shù),是用于人與人、人與機(jī)器進(jìn)行更順暢的交流的技術(shù)。深圳光纖數(shù)據(jù)語(yǔ)音識(shí)別標(biāo)準(zhǔn)
該模型比百度上一代DeepPeak2模型提升相對(duì)15%的性能。開(kāi)源語(yǔ)音識(shí)別Kaldi是業(yè)界語(yǔ)音識(shí)別框架的基石。Kaldi的作者DanielPovey一直推崇的是Chain模型。該模型是一種類似于CTC的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個(gè)狀態(tài),一個(gè)狀態(tài)是CDPhone,另一個(gè)是CDPhone的空白,訓(xùn)練方法采用的是Lattice-FreeMMI訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有提升。遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問(wèn)題,是2015年以后開(kāi)始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問(wèn)題,在智能家居、智能汽車、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了應(yīng)用。目前國(guó)內(nèi)遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語(yǔ)音識(shí)別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理,以讓語(yǔ)音更清晰,然后送入后端的語(yǔ)音識(shí)別引擎進(jìn)行識(shí)別。語(yǔ)音識(shí)別另外兩個(gè)技術(shù)部分:語(yǔ)言模型和解碼器,目前來(lái)看并沒(méi)有太大的技術(shù)變化。語(yǔ)言模型主流還是基于傳統(tǒng)的N-Gram方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的研究,但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的指標(biāo)是速度。深圳光纖數(shù)據(jù)語(yǔ)音識(shí)別標(biāo)準(zhǔn)語(yǔ)音識(shí)別技術(shù)在個(gè)人助理、智能家居等很多領(lǐng)域都有運(yùn)用到。
語(yǔ)音識(shí)別自半個(gè)世紀(jì)前誕生以來(lái),一直處于不溫不火的狀態(tài),直到2009年深度學(xué)習(xí)技術(shù)的長(zhǎng)足發(fā)展才使得語(yǔ)音識(shí)別的精度提高,雖然還無(wú)法進(jìn)行無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但也在大多數(shù)場(chǎng)景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別,英文是AutomaticSpeechRecognition,縮寫為ASR,主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。但是,我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程,簡(jiǎn)稱語(yǔ)音轉(zhuǎn)文本識(shí)別(SpeechToText,STT)更合適,這樣就能與語(yǔ)音合成(TextToSpeech,TTS)對(duì)應(yīng)起來(lái)。語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語(yǔ)音識(shí)別自誕生以來(lái)的半個(gè)多世紀(jì),一直沒(méi)有在實(shí)際應(yīng)用過(guò)程得到普遍認(rèn)可,一方面這與語(yǔ)音識(shí)別的技術(shù)缺陷有關(guān),其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求。
語(yǔ)音文件“/timit/test/dr5/fnlp0/”的波形圖、語(yǔ)譜圖和標(biāo)注SwitchBoard——對(duì)話式電話語(yǔ)音庫(kù),采樣率為8kHz,包含來(lái)自美國(guó)各個(gè)地區(qū)543人的2400條通話錄音。研究人員用這個(gè)數(shù)據(jù)庫(kù)做語(yǔ)音識(shí)別測(cè)試已有20多年的歷史。LibriSpeech——英文語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),總共1000小時(shí),采樣率為16kHz。包含朗讀式語(yǔ)音和對(duì)應(yīng)的文本。Thchs-30——清華大學(xué)提供的一個(gè)中文示例,并配套完整的發(fā)音詞典,其數(shù)據(jù)集有30小時(shí),采樣率為16kHz。AISHELL-1——希爾貝殼開(kāi)源的178小時(shí)中文普通話數(shù)據(jù),采樣率為16kHz。包含400位來(lái)自中國(guó)不同口音地區(qū)的發(fā)音人的語(yǔ)音,語(yǔ)料內(nèi)容涵蓋財(cái)經(jīng)、科技、體育、娛樂(lè)、時(shí)事新聞等。語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)還有很多,包括16kHz和8kHz的數(shù)據(jù)。海天瑞聲、數(shù)據(jù)堂等數(shù)據(jù)庫(kù)公司提供大量的商用數(shù)據(jù)庫(kù),可用于工業(yè)產(chǎn)品的開(kāi)發(fā)。08語(yǔ)音識(shí)別評(píng)價(jià)指標(biāo)假設(shè)"我們明天去動(dòng)物園"的語(yǔ)音識(shí)別結(jié)果如下:識(shí)別結(jié)果包含了刪除、插入和替換錯(cuò)誤。度量語(yǔ)音識(shí)別性能的指標(biāo)有許多個(gè),通常使用測(cè)試集上的詞錯(cuò)誤率(WordErrorRate,WER)來(lái)判斷整個(gè)系統(tǒng)的性能,其公式定義如下:其中,NRef表示測(cè)試集所有的詞數(shù)量,NDel表示識(shí)別結(jié)果相對(duì)于實(shí)際標(biāo)注發(fā)生刪除錯(cuò)誤的詞數(shù)量,NSub發(fā)生替換錯(cuò)誤的詞數(shù)量??梢詣h減一組可能的轉(zhuǎn)錄語(yǔ)句以保持易處理性。
Siri、Alexa等虛擬助手的出現(xiàn),讓自動(dòng)語(yǔ)音識(shí)別系統(tǒng)得到了更廣的運(yùn)用與發(fā)展。自動(dòng)語(yǔ)音識(shí)別(ASR)是一種將口語(yǔ)轉(zhuǎn)換為文本的過(guò)程。該技術(shù)正在不斷應(yīng)用于即時(shí)通訊應(yīng)用程序、搜索引擎、車載系統(tǒng)和家庭自動(dòng)化中。盡管所有這些系統(tǒng)都依賴于略有不同的技術(shù)流程,但這些所有系統(tǒng)的第一步都是相同的:捕獲語(yǔ)音數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器可讀的文本。但ASR系統(tǒng)如何工作?它如何學(xué)會(huì)辨別語(yǔ)音?本文將簡(jiǎn)要介紹自動(dòng)語(yǔ)音識(shí)別。我們將研究語(yǔ)音轉(zhuǎn)換成文本的過(guò)程、如何構(gòu)建ASR系統(tǒng)以及未來(lái)對(duì)ASR技術(shù)的期望。那么,我們開(kāi)始吧!ASR系統(tǒng):它們?nèi)绾芜\(yùn)作?因此,從基礎(chǔ)層面來(lái)看,我們知道自動(dòng)語(yǔ)音識(shí)別看起來(lái)如下:音頻數(shù)據(jù)輸入,文本數(shù)據(jù)輸出。但是,從輸入到輸出,音頻數(shù)據(jù)需要變成機(jī)器可讀的數(shù)據(jù)。這意味著數(shù)據(jù)通過(guò)聲學(xué)模型和語(yǔ)言模型進(jìn)行發(fā)送。這兩個(gè)過(guò)程是這樣的:聲學(xué)模型確定了語(yǔ)言中音頻信號(hào)和語(yǔ)音單位之間的關(guān)系,而語(yǔ)言模型將聲音與單詞及單詞序列進(jìn)行匹配。這兩個(gè)模型允許ASR系統(tǒng)對(duì)音頻輸入進(jìn)行概率檢查,以預(yù)測(cè)其中的單詞和句子。然后,系統(tǒng)會(huì)選出具有**高置信度等級(jí)的預(yù)測(cè)。**有時(shí)語(yǔ)言模型可以優(yōu)先考慮某些因其他因素而被認(rèn)為更有可能的預(yù)測(cè)。因此,如果通過(guò)ASR系統(tǒng)運(yùn)行短語(yǔ)。通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類的語(yǔ)音。深圳光纖數(shù)據(jù)語(yǔ)音識(shí)別標(biāo)準(zhǔn)
語(yǔ)音必定將成為未來(lái)主要的人機(jī)互動(dòng)接口之一。深圳光纖數(shù)據(jù)語(yǔ)音識(shí)別標(biāo)準(zhǔn)
比如兼容性方面新興公司做的會(huì)更加徹底,這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國(guó)內(nèi)國(guó)外市場(chǎng)是相當(dāng)有利的。類比過(guò)去的Android,語(yǔ)音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn),發(fā)展過(guò)程可能會(huì)更加的曲折。過(guò)去經(jīng)常被提到的操作系統(tǒng)的概念在智能語(yǔ)音交互背景下事實(shí)上正被賦予新的內(nèi)涵,它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。過(guò)去的Linux以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以Alexa為的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出終用戶可感知的體驗(yàn)。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對(duì)多的關(guān)系,不同的AIoT硬件產(chǎn)品在傳感器(深度攝像頭、雷達(dá)等)、顯示器上(有屏、無(wú)屏、小屏、大屏等)具有巨大差異,這會(huì)導(dǎo)致功能型系統(tǒng)的持續(xù)分化(可以和Linux的分化相對(duì)應(yīng))。這反過(guò)來(lái)也就意味著一套智能型系統(tǒng),必須同時(shí)解決與功能型系統(tǒng)的適配以及對(duì)不同后端內(nèi)容以及場(chǎng)景進(jìn)行支撐的雙重責(zé)任。這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應(yīng)用商店的開(kāi)發(fā)者。這里面蘊(yùn)含著巨大的挑戰(zhàn)和機(jī)遇。
深圳光纖數(shù)據(jù)語(yǔ)音識(shí)別標(biāo)準(zhǔn)