智能音箱玩家們對(duì)這款產(chǎn)品的認(rèn)識(shí)還都停留在:亞馬遜出了一款叫Echo的產(chǎn)品,功能和Siri類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點(diǎn)是逐步曝光的Echo銷量,2016年底,Echo近千萬(wàn)的美國(guó)銷量讓整個(gè)世界震驚。這是智能設(shè)備從未達(dá)到過(guò)的高點(diǎn),在Echo以前除了AppleWatch與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬(wàn)銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的AI屬性促使2016年下半年,國(guó)內(nèi)各大巨頭幾乎是同時(shí)轉(zhuǎn)變應(yīng)有的態(tài)度,積極打造自己的智能音箱。未來(lái),回看整個(gè)發(fā)展歷程,2019年是一個(gè)明確的分界點(diǎn)。在此之前,全行業(yè)是突飛猛進(jìn),但2019年之后則開(kāi)始進(jìn)入對(duì)細(xì)節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點(diǎn)也不再是單純的技術(shù)指標(biāo),而是回歸到體驗(yàn),回歸到一種“新的交互方式到底能給我們帶來(lái)什么價(jià)值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進(jìn)行交互結(jié)合,比如人物形象;流程自動(dòng)化是否要與語(yǔ)音結(jié)合;場(chǎng)景應(yīng)該如何使用這種技術(shù)來(lái)提升體驗(yàn),諸如此類終都會(huì)一一呈現(xiàn)在從業(yè)者面前。而此時(shí)行業(yè)的主角也會(huì)從原來(lái)的產(chǎn)品方過(guò)渡到平臺(tái)提供方,AIoT縱深過(guò)大。語(yǔ)音識(shí)別(Speech Recognition)是以語(yǔ)音為研究對(duì)象。四川語(yǔ)音識(shí)別字
聲音的感知qi官正常人耳能感知的頻率范圍為20Hz~20kHz,強(qiáng)度范圍為0dB~120dB。人耳對(duì)不同頻率的感知程度是不同的。音調(diào)是人耳對(duì)不同頻率聲音的一種主觀感覺(jué),單位為mel。mel頻率與在1kHz以下的頻率近似成線性正比關(guān)系,與1kHz以上的頻率成對(duì)數(shù)正比關(guān)系。02語(yǔ)音識(shí)別過(guò)程人耳接收到聲音后,經(jīng)過(guò)神經(jīng)傳導(dǎo)到大腦分析,判斷聲音類型,并進(jìn)一步分辨可能的發(fā)音內(nèi)容。人的大腦從嬰兒出生開(kāi)始,就不斷在學(xué)習(xí)外界的聲音,經(jīng)過(guò)長(zhǎng)時(shí)間的潛移默化,終才聽(tīng)懂人類的語(yǔ)言。機(jī)器跟人一樣,也需要學(xué)習(xí)語(yǔ)言的共性和發(fā)音的規(guī)律,才能進(jìn)行語(yǔ)音識(shí)別。音素(phone)是構(gòu)成語(yǔ)音的*小單位。英語(yǔ)中有48個(gè)音素(20個(gè)元音和28個(gè)輔音)。采用元音和輔音來(lái)分類,漢語(yǔ)普通話有32個(gè)音素,包括元音10個(gè),輔音22個(gè)。但普通話的韻母很多是復(fù)韻母,不是簡(jiǎn)單的元音,因此拼音一般分為聲母(initial)和韻母(final)。漢語(yǔ)中原來(lái)有21個(gè)聲母和36個(gè)韻母,經(jīng)過(guò)擴(kuò)充(增加aoeywv)和調(diào)整后,包含27個(gè)聲母和38個(gè)韻母(不帶聲調(diào))。普通話的聲母和韻母(不帶聲調(diào))分類表音節(jié)(syllable)是聽(tīng)覺(jué)能感受到的自然的語(yǔ)音單位,由一個(gè)或多個(gè)音素按一定的規(guī)律組合而成。英語(yǔ)音節(jié)可單獨(dú)由一個(gè)元音構(gòu)成。也可由一個(gè)元音和一個(gè)或多個(gè)輔音構(gòu)成。深圳移動(dòng)語(yǔ)音識(shí)別其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求。
直接調(diào)用即可開(kāi)啟語(yǔ)音識(shí)別功能。RunASR函數(shù)代碼如下:用戶說(shuō)完話后,LD3320通過(guò)打分的方式,將關(guān)鍵詞列表中特征**相似的一個(gè)作為輸出。然后LD3320會(huì)產(chǎn)生一個(gè)中斷信號(hào),此時(shí)MCU跳入中斷函數(shù)讀取C5寄存器的值,該值即為識(shí)別結(jié)果,得到結(jié)果后,用戶可以根據(jù)數(shù)值來(lái)實(shí)現(xiàn)一些功能,比如讀取到1,說(shuō)明是“播放音樂(lè)”,那么可以調(diào)用前面的PlaySound函數(shù)來(lái)播放音樂(lè)。語(yǔ)音識(shí)別控制的關(guān)鍵點(diǎn)在于語(yǔ)音識(shí)別的準(zhǔn)確率。表1給出了測(cè)試結(jié)果,當(dāng)然也可以在識(shí)別列表中加入更多的關(guān)鍵詞來(lái)做測(cè)試。通過(guò)測(cè)試結(jié)果可以看出,LD3320的識(shí)別率在95%上,能夠滿足用戶需求。4結(jié)語(yǔ)本文討論了基于AVR單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)的可行性,并給出了設(shè)計(jì)方案。通過(guò)多次測(cè)試結(jié)果表明,本系統(tǒng)具有電路運(yùn)行穩(wěn)定,語(yǔ)音識(shí)別率高,成本低等優(yōu)點(diǎn)。同時(shí)借助于LD3320的MP3播放功能,該系統(tǒng)具有一定的交互性和娛樂(lè)性。移植性方面,系統(tǒng)通過(guò)簡(jiǎn)單的修改,可以很方便地將LD3320驅(qū)動(dòng)程序移植到各種嵌入式系統(tǒng)中。隨著人們對(duì)人工智能功能的需求,語(yǔ)音識(shí)別技術(shù)將越來(lái)越受到人們的關(guān)注,相信不久的將來(lái),語(yǔ)音識(shí)別將會(huì)擁有更廣闊的應(yīng)用。
并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語(yǔ)音識(shí)別的技術(shù)歷程現(xiàn)代語(yǔ)音識(shí)別可以追溯到1952年,Davis等人研制了世界上個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),從此正式開(kāi)啟了語(yǔ)音識(shí)別的進(jìn)程。語(yǔ)音識(shí)別發(fā)展到已經(jīng)有70多年,但從技術(shù)方向上可以大體分為三個(gè)階段。下圖是從1993年到2017年在Switchboard上語(yǔ)音識(shí)別率的進(jìn)展情況,從圖中也可以看出1993年到2009年,語(yǔ)音識(shí)別一直處于GMM-HMM時(shí)代,語(yǔ)音識(shí)別率提升緩慢,尤其是2000年到2009年語(yǔ)音識(shí)別率基本處于停滯狀態(tài);2009年隨著深度學(xué)習(xí)技術(shù),特別是DNN的興起,語(yǔ)音識(shí)別框架變?yōu)镈NN-HMM,語(yǔ)音識(shí)別進(jìn)入了DNN時(shí)代,語(yǔ)音識(shí)別精細(xì)率得到了提升;2015年以后,由于“端到端”技術(shù)興起,語(yǔ)音識(shí)別進(jìn)入了百花齊放時(shí)代,語(yǔ)音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時(shí)利用端到端技術(shù)進(jìn)一步大幅提升了語(yǔ)音識(shí)別的性能,直到2017年微軟在Swichboard上達(dá)到詞錯(cuò)誤率,從而讓語(yǔ)音識(shí)別的準(zhǔn)確性超越了人類,當(dāng)然這是在一定限定條件下的實(shí)驗(yàn)結(jié)果,還不具有普遍代表性。GMM-HMM時(shí)代70年代,語(yǔ)音識(shí)別主要集中在小詞匯量、孤立詞識(shí)別方面,使用的方法也主要是簡(jiǎn)單的模板匹配方法,即首先提取語(yǔ)音信號(hào)的特征構(gòu)建參數(shù)模板,然后將測(cè)試語(yǔ)音與參考模板參數(shù)進(jìn)行一一比較和匹配。
通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類的語(yǔ)音。
Hinton提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復(fù)蘇。2009年,Hinton將DNN應(yīng)用于語(yǔ)音的聲學(xué)建模,在TIMIT上獲得了當(dāng)時(shí)好的結(jié)果。2011年底,微軟研究院的俞棟、鄧力又把DNN技術(shù)應(yīng)用在了大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上,降低了語(yǔ)音識(shí)別錯(cuò)誤率。從此語(yǔ)音識(shí)別進(jìn)入DNN-HMM時(shí)代。DNN-HMM主要是用DNN模型代替原來(lái)的GMM模型,對(duì)每一個(gè)狀態(tài)進(jìn)行建模,DNN帶來(lái)的好處是不再需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè),將相鄰的語(yǔ)音幀拼接又包含了語(yǔ)音的時(shí)序結(jié)構(gòu)信息,使得對(duì)于狀態(tài)的分類概率有了明顯提升,同時(shí)DNN還具有強(qiáng)大環(huán)境學(xué)習(xí)能力,可以提升對(duì)噪聲和口音的魯棒性。簡(jiǎn)單來(lái)說(shuō),DNN就是給出輸入的一串特征所對(duì)應(yīng)的狀態(tài)概率。由于語(yǔ)音信號(hào)是連續(xù)的,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位還會(huì)受到上下文的影響。雖然拼幀可以增加上下文信息,但對(duì)于語(yǔ)音來(lái)說(shuō)還是不夠。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對(duì)語(yǔ)音信號(hào)的上下文信息進(jìn)行建模。由于簡(jiǎn)單的RNN存在梯度炸和梯度消散問(wèn)題,難以訓(xùn)練,無(wú)法直接應(yīng)用于語(yǔ)音信號(hào)建模上,因此學(xué)者進(jìn)一步探索,開(kāi)發(fā)出了很多適合語(yǔ)音建模的RNN結(jié)構(gòu),其中有名的就是LSTM。該系統(tǒng)分析該人的特定聲音,并使用它來(lái)微調(diào)對(duì)該人語(yǔ)音的識(shí)別,從而提高準(zhǔn)確性。內(nèi)蒙古長(zhǎng)語(yǔ)音識(shí)別
大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)時(shí)代的到來(lái),語(yǔ)音識(shí)別技術(shù)取得了突飛猛進(jìn)的進(jìn)步。四川語(yǔ)音識(shí)別字
自2015年以來(lái),谷歌、亞馬遜、百度等公司陸續(xù)開(kāi)始了對(duì)CTC模型的研發(fā)和使用,并且都獲得了不錯(cuò)的性能提升。2014年,基于Attention(注意力機(jī)制)的端到端技術(shù)在機(jī)器翻譯領(lǐng)域中得到了廣的應(yīng)用并取得了較好的實(shí)驗(yàn)結(jié)果,之后很快被大規(guī)模商用。于是,JanChorowski在2015年將Attention的應(yīng)用擴(kuò)展到了語(yǔ)音識(shí)別領(lǐng)域,結(jié)果大放異彩。在近的兩年里,有一種稱為Seq2Seq(SequencetoSequence)的基于Attention的語(yǔ)音識(shí)別模型在學(xué)術(shù)界引起了極大的關(guān)注,相關(guān)的研究取得了較大的進(jìn)展。在加拿大召開(kāi)的國(guó)際智能語(yǔ)音領(lǐng)域的會(huì)議ICASSP2018上,谷歌公司發(fā)表的研究成果顯示,在英語(yǔ)語(yǔ)音識(shí)別任務(wù)上,基于Attention的Seq2Seq模型表現(xiàn)強(qiáng)勁,它的識(shí)別結(jié)果已經(jīng)超越了其他語(yǔ)音識(shí)別模型。但Attention模型的對(duì)齊關(guān)系沒(méi)有先后順序的限制,完全靠數(shù)據(jù)驅(qū)動(dòng)得到,對(duì)齊的盲目性會(huì)導(dǎo)致訓(xùn)練和解碼時(shí)間過(guò)長(zhǎng)。而CTC的前向后向算法可以引導(dǎo)輸出序列與輸入序列按時(shí)間順序?qū)R。因此CTC和Attention模型各有優(yōu)勢(shì),可把兩者結(jié)合起來(lái)。構(gòu)建HybridCTC/Attention模型,并采用多任務(wù)學(xué)習(xí),以取得更好的效果。2017年,Google和多倫多大學(xué)提出一種稱為T(mén)ransformer的全新架構(gòu),這種架構(gòu)在Decoder和Encoder中均采用Attention機(jī)制。四川語(yǔ)音識(shí)別字