即識(shí)別準(zhǔn)確率為,相較于2013年的準(zhǔn)確率提升了接近20個(gè)百分點(diǎn)。這種水平的準(zhǔn)確率已經(jīng)接近正常人類(lèi)。2016年10月18日,微軟語(yǔ)音團(tuán)隊(duì)在Switchboard語(yǔ)音識(shí)別測(cè)試中打破了自己的好成績(jī),將詞錯(cuò)誤率降低至。次年,微軟語(yǔ)音團(tuán)隊(duì)研究人員通過(guò)改進(jìn)語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型和語(yǔ)言模型,在之前的基礎(chǔ)上引入了CNN-BLSTM(ConvolutionalNeuralNetworkCombinedwithBidirectionalLongShort-TermMemory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò))模型,用于提升語(yǔ)音建模的效果。2017年8月20日,微軟語(yǔ)音團(tuán)隊(duì)再次將這一紀(jì)錄刷新,在Switchboard測(cè)試中將詞錯(cuò)誤率從,即識(shí)別準(zhǔn)確率達(dá)到,與谷歌一起成為了行業(yè)。另外,亞馬遜(Amazon)公司在語(yǔ)音行業(yè)可謂后發(fā)制人,其在2014年底正式推出了Echo智能音箱,并通過(guò)該音箱搭載的Alexa語(yǔ)音助理,為使用者提供種種應(yīng)用服務(wù)。Echo智能音箱一經(jīng)推出,在消費(fèi)市場(chǎng)上取得了巨大的成功。如今已成為美國(guó)使用廣的智能家居產(chǎn)品,至今累計(jì)銷(xiāo)量已超過(guò)2000萬(wàn)臺(tái)。投資機(jī)構(gòu)摩根士丹利分析師稱智能音箱是繼iPad之后"成功的消費(fèi)電子產(chǎn)品"。國(guó)內(nèi)語(yǔ)音識(shí)別現(xiàn)狀國(guó)內(nèi)早的語(yǔ)音識(shí)別研究開(kāi)始于1958年,中國(guó)科學(xué)院聲學(xué)所研究出一種電子管電路,該電子管可以識(shí)別10個(gè)元音。1973年。語(yǔ)音識(shí)別是門(mén)綜合性學(xué)科,包括聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理、概率統(tǒng)計(jì)、信息論、模式識(shí)別和深度學(xué)習(xí)等。海南語(yǔ)音識(shí)別庫(kù)
在識(shí)別時(shí)可以將待識(shí)別的語(yǔ)音的特征參數(shù)與聲學(xué)模型進(jìn)行匹配,得到識(shí)別結(jié)果。目前的主流語(yǔ)音識(shí)別系統(tǒng)多采用隱馬爾可夫模型HMM進(jìn)行聲學(xué)模型建模。(4)語(yǔ)言模型訓(xùn)練語(yǔ)言模型是用來(lái)計(jì)算一個(gè)句子出現(xiàn)概率的模型,簡(jiǎn)單地說(shuō),就是計(jì)算一個(gè)句子在語(yǔ)法上是否正確的概率。因?yàn)榫渥拥臉?gòu)造往往是規(guī)律的,前面出現(xiàn)的詞經(jīng)常預(yù)示了后方可能出現(xiàn)的詞語(yǔ)。它主要用于決定哪個(gè)詞序列的可能性更大,或者在出現(xiàn)了幾個(gè)詞的時(shí)候預(yù)測(cè)下一個(gè)即將出現(xiàn)的詞語(yǔ)。它定義了哪些詞能跟在上一個(gè)已經(jīng)識(shí)別的詞的后面(匹配是一個(gè)順序的處理過(guò)程),這樣就可以為匹配過(guò)程排除一些不可能的單詞。語(yǔ)言建模能夠有效的結(jié)合漢語(yǔ)語(yǔ)法和語(yǔ)義的知識(shí),描述詞之間的內(nèi)在關(guān)系,從而提高識(shí)別率,減少搜索范圍。對(duì)訓(xùn)練文本數(shù)據(jù)庫(kù)進(jìn)行語(yǔ)法、語(yǔ)義分析,經(jīng)過(guò)基于統(tǒng)計(jì)模型訓(xùn)練得到語(yǔ)言模型。(5)語(yǔ)音解碼和搜索算法解碼器是指語(yǔ)音技術(shù)中的識(shí)別過(guò)程。針對(duì)輸入的語(yǔ)音信號(hào),根據(jù)己經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語(yǔ)言模型及字典建立一個(gè)識(shí)別網(wǎng)絡(luò),根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找一條路徑,這個(gè)路徑就是能夠以概率輸出該語(yǔ)音信號(hào)的詞串,這樣就確定這個(gè)語(yǔ)音樣本所包含的文字了。所以,解碼操作即指搜索算法。廣州移動(dòng)語(yǔ)音識(shí)別服務(wù)標(biāo)準(zhǔn)聲音從本質(zhì)是一種波,也就是聲波,這種波可以作為一種信號(hào)來(lái)進(jìn)行處理。
先行者叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點(diǎn)是逐步曝光的Echo銷(xiāo)量,近千萬(wàn)的美國(guó)銷(xiāo)量讓整個(gè)世界震驚。這是智能設(shè)備從未達(dá)到過(guò)的高點(diǎn),在Echo以前除了AppleWatch與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬(wàn)銷(xiāo)量已是驚人表現(xiàn)。這種銷(xiāo)量以及智能音箱的AI屬性促使下半年,國(guó)內(nèi)各大巨頭幾乎是同時(shí)轉(zhuǎn)度,積極打造自己的智能音箱。未來(lái),回看整個(gè)發(fā)展歷程,是一個(gè)明確的分界點(diǎn)。在此之前,全行業(yè)是突飛猛進(jìn),之后則開(kāi)始進(jìn)入對(duì)細(xì)節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點(diǎn)也不再是單純的技術(shù)指標(biāo),而是回歸到體驗(yàn),回歸到一種“新的交互方式到底能給我們帶來(lái)什么價(jià)值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進(jìn)行交互結(jié)合,比如人物形象;流程自動(dòng)化是否要與語(yǔ)音結(jié)合;酒店場(chǎng)景應(yīng)該如何使用這種技術(shù)來(lái)提升體驗(yàn),諸如此類(lèi)終都會(huì)一一呈現(xiàn)在從業(yè)者面前。而此時(shí)行業(yè)的主角也會(huì)從原來(lái)的產(chǎn)品方過(guò)渡到平臺(tái)提供方,AIoT縱深過(guò)大,沒(méi)有任何一個(gè)公司可以全線打造所有的產(chǎn)品。語(yǔ)音識(shí)別的產(chǎn)業(yè)趨勢(shì)當(dāng)語(yǔ)音產(chǎn)業(yè)需求四處開(kāi)花的同時(shí)。
主流的語(yǔ)音識(shí)別系統(tǒng)框架03語(yǔ)音識(shí)別發(fā)展歷史羅馬城不是***建成的,語(yǔ)音識(shí)別近些年的爆發(fā)也并非一朝一夕可以做到的,而是經(jīng)過(guò)了一段漫長(zhǎng)的發(fā)展歷程。從初的語(yǔ)音識(shí)別雛形,到高達(dá)90%以上準(zhǔn)確率的現(xiàn)在,經(jīng)過(guò)了大約100年的時(shí)間。在電子計(jì)算機(jī)被發(fā)明之前的20世紀(jì)20年dai,sheng產(chǎn)的一種叫作"RadioRex"的玩具狗被認(rèn)為是世界上早的語(yǔ)音識(shí)別器。每當(dāng)有人喊出"Rex"這個(gè)詞時(shí),這只狗就從底座上彈出來(lái),以此回應(yīng)人類(lèi)的"呼喚"。但是實(shí)際上,它使用的技術(shù)并不是真正意義上的語(yǔ)音識(shí)別技術(shù),而是使用了一個(gè)特殊的彈簧,每當(dāng)該彈簧接收到頻率為500Hz的聲音時(shí),它就會(huì)被自動(dòng)釋放,而500Hz恰好就是人們喊出"Rex"時(shí)的***個(gè)共振峰的頻率。"RadioRex"玩具狗被視為語(yǔ)音識(shí)別的雛形。真正意義上的語(yǔ)音識(shí)別研究起源于20世紀(jì)50年代。先是美國(guó)的AT&TBell實(shí)驗(yàn)室的Davis等人成功開(kāi)發(fā)出了世界上di一個(gè)孤立詞語(yǔ)音識(shí)別系統(tǒng)——Audry系統(tǒng),該系統(tǒng)能夠識(shí)別10個(gè)英文數(shù)字的發(fā)音,正確率高達(dá)98%。1956年,美國(guó)普林斯頓大學(xué)的實(shí)驗(yàn)室使用模擬濾波器組提取出元音的頻譜后,通過(guò)模板匹配。建立了針對(duì)特定說(shuō)話人的包括10個(gè)單音節(jié)詞的語(yǔ)音識(shí)別系統(tǒng)。1959年。語(yǔ)音識(shí)別(Speech Recognition)是以語(yǔ)音為研究對(duì)象。
語(yǔ)音識(shí)別自半個(gè)世紀(jì)前誕生以來(lái),一直處于不溫不火的狀態(tài),直到2009年深度學(xué)習(xí)技術(shù)的長(zhǎng)足發(fā)展才使得語(yǔ)音識(shí)別的精度提高,雖然還無(wú)法進(jìn)行無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但也在大多數(shù)場(chǎng)景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別,英文是AutomaticSpeechRecognition,縮寫(xiě)為ASR,主要是將人類(lèi)語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。但是,我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程,簡(jiǎn)稱語(yǔ)音轉(zhuǎn)文本識(shí)別(SpeechToText,STT)更合適,這樣就能與語(yǔ)音合成(TextToSpeech,TTS)對(duì)應(yīng)起來(lái)。語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語(yǔ)音識(shí)別自誕生以來(lái)的半個(gè)多世紀(jì),一直沒(méi)有在實(shí)際應(yīng)用過(guò)程得到普遍認(rèn)可,一方面這與語(yǔ)音識(shí)別的技術(shù)缺陷有關(guān),其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求。
語(yǔ)言建模也用于許多其他自然語(yǔ)言處理應(yīng)用,如文檔分類(lèi)或統(tǒng)計(jì)機(jī)器翻譯。福建語(yǔ)音識(shí)別機(jī)
自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR),也可以簡(jiǎn)稱為語(yǔ)音識(shí)別。海南語(yǔ)音識(shí)別庫(kù)
Siri、Alexa等虛擬助手的出現(xiàn),讓自動(dòng)語(yǔ)音識(shí)別系統(tǒng)得到了更廣的運(yùn)用與發(fā)展。自動(dòng)語(yǔ)音識(shí)別(ASR)是一種將口語(yǔ)轉(zhuǎn)換為文本的過(guò)程。該技術(shù)正在不斷應(yīng)用于即時(shí)通訊應(yīng)用程序、搜索引擎、車(chē)載系統(tǒng)和家庭自動(dòng)化中。盡管所有這些系統(tǒng)都依賴于略有不同的技術(shù)流程,但這些所有系統(tǒng)的第一步都是相同的:捕獲語(yǔ)音數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器可讀的文本。但ASR系統(tǒng)如何工作?它如何學(xué)會(huì)辨別語(yǔ)音?本文將簡(jiǎn)要介紹自動(dòng)語(yǔ)音識(shí)別。我們將研究語(yǔ)音轉(zhuǎn)換成文本的過(guò)程、如何構(gòu)建ASR系統(tǒng)以及未來(lái)對(duì)ASR技術(shù)的期望。那么,我們開(kāi)始吧!ASR系統(tǒng):它們?nèi)绾芜\(yùn)作?因此,從基礎(chǔ)層面來(lái)看,我們知道自動(dòng)語(yǔ)音識(shí)別看起來(lái)如下:音頻數(shù)據(jù)輸入,文本數(shù)據(jù)輸出。但是,從輸入到輸出,音頻數(shù)據(jù)需要變成機(jī)器可讀的數(shù)據(jù)。這意味著數(shù)據(jù)通過(guò)聲學(xué)模型和語(yǔ)言模型進(jìn)行發(fā)送。這兩個(gè)過(guò)程是這樣的:聲學(xué)模型確定了語(yǔ)言中音頻信號(hào)和語(yǔ)音單位之間的關(guān)系,而語(yǔ)言模型將聲音與單詞及單詞序列進(jìn)行匹配。這兩個(gè)模型允許ASR系統(tǒng)對(duì)音頻輸入進(jìn)行概率檢查,以預(yù)測(cè)其中的單詞和句子。然后,系統(tǒng)會(huì)選出具有**高置信度等級(jí)的預(yù)測(cè)。**有時(shí)語(yǔ)言模型可以優(yōu)先考慮某些因其他因素而被認(rèn)為更有可能的預(yù)測(cè)。因此,如果通過(guò)ASR系統(tǒng)運(yùn)行短語(yǔ)。海南語(yǔ)音識(shí)別庫(kù)