英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則shou次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器。語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。di一階段:模板匹配(DTW)20世紀(jì)60年代,一些重要的語(yǔ)音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來(lái)。1964年,Martin為了解決語(yǔ)音時(shí)長(zhǎng)不一致的問(wèn)題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語(yǔ)音的端點(diǎn),這可以有效地降低語(yǔ)音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語(yǔ)音識(shí)別結(jié)果的可變性減小了。19...
已有20年歷史了,在Github和SourceForge上都已經(jīng)開(kāi)源了,而且兩個(gè)平臺(tái)上都有較高的活躍度。(2)Kaldi從2009年的研討會(huì)起就有它的學(xué)術(shù)根基了,現(xiàn)在已經(jīng)在GitHub上開(kāi)源,開(kāi)發(fā)活躍度較高。(3)HTK始于劍橋大學(xué),已經(jīng)商用較長(zhǎng)時(shí)間,但是現(xiàn)在版權(quán)已經(jīng)不再開(kāi)源軟件了。它的新版本更新于2015年12月。(4)Julius起源于1997年,一個(gè)主版本發(fā)布于2016年9月,主要支持的是日語(yǔ)。(5)ISIP是新型的開(kāi)源語(yǔ)音識(shí)別系統(tǒng),源于密西西比州立大學(xué)。它主要發(fā)展于1996到1999年間,版本發(fā)布于2011年,遺憾的是,這個(gè)項(xiàng)目已經(jīng)不復(fù)存在。語(yǔ)音識(shí)別技術(shù)研究難點(diǎn)目前,語(yǔ)音識(shí)別研...
使處理后的信號(hào)更完全地反映語(yǔ)音的本質(zhì)特征提取。智能語(yǔ)音系統(tǒng)的未來(lái)實(shí)現(xiàn)人機(jī)之間的自由語(yǔ)音交互將成為未來(lái)AI的發(fā)展趨勢(shì),新技術(shù)投入市場(chǎng)會(huì)帶來(lái)一些熱情,但有一定的改善空間。首先,智能語(yǔ)音市場(chǎng)需要對(duì)特定人群適當(dāng)?shù)馗淖兲囟ǖ膱?chǎng)景?,F(xiàn)在人機(jī)交互在實(shí)時(shí)性、正確性等方面也需要提高。其次,語(yǔ)音輸入的內(nèi)容與各種專業(yè)知識(shí)相關(guān),智能語(yǔ)音系統(tǒng)在理解人類語(yǔ)言的表面意義的基礎(chǔ)上,認(rèn)識(shí)到更深的意義,因此智能語(yǔ)音系統(tǒng)的知識(shí)圖譜也是一大挑戰(zhàn),對(duì)輸入輸出、編譯代碼提出了很高的要求,語(yǔ)音識(shí)別技術(shù)利用高速發(fā)展的信息網(wǎng),可以實(shí)現(xiàn)計(jì)算機(jī)全球網(wǎng)絡(luò)和信息資源的共享,因此應(yīng)用的系統(tǒng)有語(yǔ)音輸入和控制系統(tǒng)、電銷機(jī)器人、智能手機(jī)查詢系統(tǒng)、智能...
它相對(duì)于GMM-HMM系統(tǒng)并沒(méi)有什么優(yōu)勢(shì)可言,研究人員還是更傾向于基于統(tǒng)計(jì)模型的方法。在20世紀(jì)80年代還有一個(gè)值得一提的事件,美國(guó)3eec6ee2-7378-4724-83b5-9b技術(shù)署(NIST)在1987年di一次舉辦了NIST評(píng)測(cè),這項(xiàng)評(píng)測(cè)在后來(lái)成為了全球語(yǔ)音評(píng)測(cè)。20世紀(jì)90年代,語(yǔ)音識(shí)別進(jìn)入了一個(gè)技術(shù)相對(duì)成熟的時(shí)期,主流的GMM-HMM框架得到了更廣的應(yīng)用,在領(lǐng)域中的地位越發(fā)穩(wěn)固。聲學(xué)模型的說(shuō)話人自適應(yīng)(SpeakerAdaptation)方法和區(qū)分性訓(xùn)練(DiscriminativeTraining)準(zhǔn)則的提出,進(jìn)一步提升了語(yǔ)音識(shí)別系統(tǒng)的性能。1994年提出的大后驗(yàn)概率...
DFCNN使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,主要借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多卷積池化層對(duì),從而可以看到更多的歷史信息。2018年,阿里提出LFR-DFSMN(LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks)。該模型將低幀率算法和DFSMN算法進(jìn)行融合,語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低20%,解碼速度提升3倍。FSMN通過(guò)在FNN的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效的對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。而DFSMN是通過(guò)跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問(wèn)...
在過(guò)去功能型操作系統(tǒng)的打造過(guò)程中,國(guó)內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來(lái)從頭打造完整的系統(tǒng)。(國(guó)外巨頭不管在中文相關(guān)的技術(shù)上還是內(nèi)容整合上事實(shí)上都非常薄弱,不存在國(guó)內(nèi)市場(chǎng)的可能性)隨著平臺(tái)服務(wù)商兩邊的問(wèn)題解決的越來(lái)越好,基礎(chǔ)的計(jì)算模式則會(huì)逐漸發(fā)生改變,人們的數(shù)據(jù)消費(fèi)模式會(huì)與不同。個(gè)人的計(jì)算設(shè)備(當(dāng)前主要是手機(jī)、筆記本、Pad)會(huì)根據(jù)不同場(chǎng)景進(jìn)一步分化。比如在車上、家里、酒店、工作場(chǎng)景、路上、業(yè)務(wù)辦理等會(huì)根據(jù)地點(diǎn)和業(yè)務(wù)進(jìn)行分化。但分化的同時(shí)背后的服務(wù)則是統(tǒng)一的,每個(gè)人可以自由的根據(jù)場(chǎng)景做設(shè)備的遷移,背后的服務(wù)雖然會(huì)針對(duì)不同的場(chǎng)景進(jìn)行優(yōu)...
Google將其應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,取得了非常好的效果,將詞錯(cuò)誤率降低至。如下圖所示,Google提出新系統(tǒng)的框架由三個(gè)部分組成:Encoder編碼器組件,它和標(biāo)準(zhǔn)的聲學(xué)模型相似,輸入的是語(yǔ)音信號(hào)的時(shí)頻特征;經(jīng)過(guò)一系列神經(jīng)網(wǎng)絡(luò),映射成高級(jí)特征henc,然后傳遞給Attention組件,其使用henc特征學(xué)習(xí)輸入x和預(yù)測(cè)子單元之間的對(duì)齊方式,子單元可以是一個(gè)音素或一個(gè)字。,attention模塊的輸出傳遞給Decoder,生成一系列假設(shè)詞的概率分布,類似于傳統(tǒng)的語(yǔ)言模型。端到端技術(shù)的突破,不再需要HMM來(lái)描述音素內(nèi)部狀態(tài)的變化,而是將語(yǔ)音識(shí)別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型,使語(yǔ)音識(shí)別朝...
LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,能夠通過(guò)遺忘門(mén)和輸出門(mén)忘記部分信息來(lái)解決梯度消失的問(wèn)題。由LSTM也衍生出了許多變體,較為常用的是門(mén)控循環(huán)單元(GatedRecurrentUnit,GRU),在訓(xùn)練數(shù)據(jù)很大的情況下GRU相比LSTM參數(shù)更少,因此更容易收斂,從而能節(jié)省很多時(shí)間。LSTM及其變體使得識(shí)別效果再次得到提升,尤其是在近場(chǎng)的語(yǔ)音識(shí)別任務(wù)上達(dá)到了可以滿足人們?nèi)粘I畹臉?biāo)準(zhǔn)。另外,時(shí)延神經(jīng)網(wǎng)絡(luò)(TimeDelayNeuralNetwork,TDNN)也獲得了不錯(cuò)的識(shí)別效果,它可以適應(yīng)語(yǔ)音的動(dòng)態(tài)時(shí)域變化,能夠?qū)W習(xí)到特征之間的時(shí)序依賴。深度學(xué)習(xí)技術(shù)在近十幾年中,一直保持著飛速發(fā)展的狀態(tài)...
因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來(lái)、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會(huì)更加徹底,這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國(guó)內(nèi)國(guó)外市場(chǎng)是相當(dāng)有利的。類比過(guò)去的Android,語(yǔ)音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn),發(fā)展過(guò)程可能會(huì)更加的曲折。過(guò)去經(jīng)常被提到的操作系統(tǒng)的概念在智能語(yǔ)音交互背景下事實(shí)上正被賦予新的內(nèi)涵,它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。過(guò)去的Linux以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以Alexa的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出終用戶可感知的...
導(dǎo)致我國(guó)的語(yǔ)音識(shí)別研究在整個(gè)20世紀(jì)80年代都沒(méi)有取得學(xué)術(shù)成果,也沒(méi)有開(kāi)發(fā)出具有優(yōu)良性能的識(shí)別系統(tǒng)。20世紀(jì)90年代,我國(guó)的語(yǔ)音識(shí)別研究持續(xù)發(fā)展,開(kāi)始逐漸地緊追國(guó)際水平。在"863"計(jì)劃、國(guó)家科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金的支持下,我國(guó)在中文語(yǔ)音識(shí)別技術(shù)方面取得了一系列研究成果。21世紀(jì)初期,包括科大訊飛、中科信利、捷通華聲等一批致力于語(yǔ)音應(yīng)用的公司陸續(xù)在我國(guó)成立。語(yǔ)音識(shí)別企業(yè)科大訊飛早在2010年,就推出了業(yè)界中文語(yǔ)音輸入法,移動(dòng)互聯(lián)網(wǎng)的語(yǔ)音應(yīng)用。2010年以后,百度、騰訊、阿里巴巴等國(guó)內(nèi)各大互聯(lián)網(wǎng)公司相繼組建語(yǔ)音研發(fā)團(tuán)隊(duì),推出了各自的語(yǔ)音識(shí)別服務(wù)和產(chǎn)品。在此之后,國(guó)內(nèi)語(yǔ)音識(shí)別的研究...
DTW)技術(shù)基本成熟,特別提出了矢量量化(Vec?torQuantization,VQ)和隱馬爾可夫模型(HiddenMar?kovModel,HMM)理論。20世紀(jì)80年代,語(yǔ)音識(shí)別任務(wù)開(kāi)始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語(yǔ)音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語(yǔ)音時(shí)變性和平穩(wěn)性,開(kāi)始被應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別(LargeVocabularyContinousSpeechRecognition,LVCSR)的聲學(xué)建模;在語(yǔ)言模型方面,以N元文法的統(tǒng)計(jì)語(yǔ)言模型開(kāi)始應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)。在這一階...
2)初始化離線引擎:初始化訊飛離線語(yǔ)音庫(kù),根據(jù)本地生成的語(yǔ)法文檔,構(gòu)建語(yǔ)法網(wǎng)絡(luò),輸入語(yǔ)音識(shí)別器中;(3)初始化聲音驅(qū)動(dòng):根據(jù)離線引擎的要求,初始化ALSA庫(kù);(4)啟動(dòng)數(shù)據(jù)采集:如果有用戶有語(yǔ)音識(shí)別請(qǐng)求,語(yǔ)音控制模塊啟動(dòng)實(shí)時(shí)語(yǔ)音采集程序;(5)靜音切除:在語(yǔ)音數(shù)據(jù)的前端,可能存在部分靜音數(shù)據(jù),ALSA庫(kù)開(kāi)啟靜音檢測(cè)功能,將靜音數(shù)據(jù)切除后傳送至語(yǔ)音識(shí)別引擎;(6)語(yǔ)音識(shí)別狀態(tài)檢測(cè):語(yǔ)音控制模塊定時(shí)檢測(cè)引擎系統(tǒng)的語(yǔ)音識(shí)別狀態(tài),當(dāng)離線引擎有結(jié)果輸出時(shí),提取語(yǔ)音識(shí)別結(jié)果;(7)結(jié)束語(yǔ)音采集:語(yǔ)音控制模塊通知ALSA,終止實(shí)時(shí)語(yǔ)音數(shù)據(jù)的采集;(8)語(yǔ)義解析:語(yǔ)音控制模塊根據(jù)語(yǔ)音識(shí)別的結(jié)果,完...
語(yǔ)音文件“/timit/test/dr5/fnlp0/”的波形圖、語(yǔ)譜圖和標(biāo)注SwitchBoard——對(duì)話式電話語(yǔ)音庫(kù),采樣率為8kHz,包含來(lái)自美國(guó)各個(gè)地區(qū)543人的2400條通話錄音。研究人員用這個(gè)數(shù)據(jù)庫(kù)做語(yǔ)音識(shí)別測(cè)試已有20多年的歷史。LibriSpeech——英文語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),總共1000小時(shí),采樣率為16kHz。包含朗讀式語(yǔ)音和對(duì)應(yīng)的文本。Thchs-30——清華大學(xué)提供的一個(gè)中文示例,并配套完整的發(fā)音詞典,其數(shù)據(jù)集有30小時(shí),采樣率為16kHz。AISHELL-1——希爾貝殼開(kāi)源的178小時(shí)中文普通話數(shù)據(jù),采樣率為16kHz。包含400位來(lái)自中國(guó)不同口音地區(qū)的發(fā)音人的語(yǔ)...
英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則shou次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器。語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。di一階段:模板匹配(DTW)20世紀(jì)60年代,一些重要的語(yǔ)音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來(lái)。1964年,Martin為了解決語(yǔ)音時(shí)長(zhǎng)不一致的問(wèn)題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語(yǔ)音的端點(diǎn),這可以有效地降低語(yǔ)音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語(yǔ)音識(shí)別結(jié)果的可變性減小了。19...
因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問(wèn)題。(3)上述兩個(gè)問(wèn)題的共性是目前的深度學(xué)習(xí)用到了語(yǔ)音信號(hào)各個(gè)頻帶的能量信息,而忽略了語(yǔ)音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來(lái)的一個(gè)方向。(4)另外,在較少數(shù)據(jù)量的情況下,如何通過(guò)遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語(yǔ)音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離目標(biāo)還有一定差距。(5)語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并...
聲音的感知qi官正常人耳能感知的頻率范圍為20Hz~20kHz,強(qiáng)度范圍為0dB~120dB。人耳對(duì)不同頻率的感知程度是不同的。音調(diào)是人耳對(duì)不同頻率聲音的一種主觀感覺(jué),單位為mel。mel頻率與在1kHz以下的頻率近似成線性正比關(guān)系,與1kHz以上的頻率成對(duì)數(shù)正比關(guān)系。02語(yǔ)音識(shí)別過(guò)程人耳接收到聲音后,經(jīng)過(guò)神經(jīng)傳導(dǎo)到大腦分析,判斷聲音類型,并進(jìn)一步分辨可能的發(fā)音內(nèi)容。人的大腦從嬰兒出生開(kāi)始,就不斷在學(xué)習(xí)外界的聲音,經(jīng)過(guò)長(zhǎng)時(shí)間的潛移默化,終才聽(tīng)懂人類的語(yǔ)言。機(jī)器跟人一樣,也需要學(xué)習(xí)語(yǔ)言的共性和發(fā)音的規(guī)律,才能進(jìn)行語(yǔ)音識(shí)別。音素(phone)是構(gòu)成語(yǔ)音的*小單位。英語(yǔ)中有48個(gè)音素(2...
在識(shí)別時(shí)可以將待識(shí)別的語(yǔ)音的特征參數(shù)與聲學(xué)模型進(jìn)行匹配,得到識(shí)別結(jié)果。目前的主流語(yǔ)音識(shí)別系統(tǒng)多采用隱馬爾可夫模型HMM進(jìn)行聲學(xué)模型建模。(4)語(yǔ)言模型訓(xùn)練語(yǔ)言模型是用來(lái)計(jì)算一個(gè)句子出現(xiàn)概率的模型,簡(jiǎn)單地說(shuō),就是計(jì)算一個(gè)句子在語(yǔ)法上是否正確的概率。因?yàn)榫渥拥臉?gòu)造往往是規(guī)律的,前面出現(xiàn)的詞經(jīng)常預(yù)示了后方可能出現(xiàn)的詞語(yǔ)。它主要用于決定哪個(gè)詞序列的可能性更大,或者在出現(xiàn)了幾個(gè)詞的時(shí)候預(yù)測(cè)下一個(gè)即將出現(xiàn)的詞語(yǔ)。它定義了哪些詞能跟在上一個(gè)已經(jīng)識(shí)別的詞的后面(匹配是一個(gè)順序的處理過(guò)程),這樣就可以為匹配過(guò)程排除一些不可能的單詞。語(yǔ)言建模能夠有效的結(jié)合漢語(yǔ)語(yǔ)法和語(yǔ)義的知識(shí),描述詞之間的內(nèi)在關(guān)系,從而提...
在我們的生活中,語(yǔ)言是傳遞信息重要的方式,它能夠讓人們之間互相了解。人和機(jī)器之間的交互也是相同的道理,讓機(jī)器人知道人類要做什么、怎么做。交互的方式有動(dòng)作、文本或語(yǔ)音等等,其中語(yǔ)音交互越來(lái)越被重視,因?yàn)殡S著互聯(lián)網(wǎng)上智能硬件的普及,產(chǎn)生了各種互聯(lián)網(wǎng)的入口方式,而語(yǔ)音是簡(jiǎn)單、直接的交互方式,是通用的輸入模式。在1952年,貝爾研究所研制了世界上能識(shí)別10個(gè)英文數(shù)字發(fā)音的系統(tǒng)。1960年英國(guó)的Denes等人研制了世界上語(yǔ)音識(shí)別(ASR)系統(tǒng)。大規(guī)模的語(yǔ)音識(shí)別研究始于70年代,并在單個(gè)詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)逐漸轉(zhuǎn)向更通用的大詞匯量、非特定人的連續(xù)語(yǔ)...
聲音的感知qi官正常人耳能感知的頻率范圍為20Hz~20kHz,強(qiáng)度范圍為0dB~120dB。人耳對(duì)不同頻率的感知程度是不同的。音調(diào)是人耳對(duì)不同頻率聲音的一種主觀感覺(jué),單位為mel。mel頻率與在1kHz以下的頻率近似成線性正比關(guān)系,與1kHz以上的頻率成對(duì)數(shù)正比關(guān)系。02語(yǔ)音識(shí)別過(guò)程人耳接收到聲音后,經(jīng)過(guò)神經(jīng)傳導(dǎo)到大腦分析,判斷聲音類型,并進(jìn)一步分辨可能的發(fā)音內(nèi)容。人的大腦從嬰兒出生開(kāi)始,就不斷在學(xué)習(xí)外界的聲音,經(jīng)過(guò)長(zhǎng)時(shí)間的潛移默化,終才聽(tīng)懂人類的語(yǔ)言。機(jī)器跟人一樣,也需要學(xué)習(xí)語(yǔ)言的共性和發(fā)音的規(guī)律,才能進(jìn)行語(yǔ)音識(shí)別。音素(phone)是構(gòu)成語(yǔ)音的*小單位。英語(yǔ)中有48個(gè)音素(2...
自2015年以來(lái),谷歌、亞馬遜、百度等公司陸續(xù)開(kāi)始了對(duì)CTC模型的研發(fā)和使用,并且都獲得了不錯(cuò)的性能提升。2014年,基于Attention(注意力機(jī)制)的端到端技術(shù)在機(jī)器翻譯領(lǐng)域中得到了廣的應(yīng)用并取得了較好的實(shí)驗(yàn)結(jié)果,之后很快被大規(guī)模商用。于是,JanChorowski在2015年將Attention的應(yīng)用擴(kuò)展到了語(yǔ)音識(shí)別領(lǐng)域,結(jié)果大放異彩。在近的兩年里,有一種稱為Seq2Seq(SequencetoSequence)的基于Attention的語(yǔ)音識(shí)別模型在學(xué)術(shù)界引起了極大的關(guān)注,相關(guān)的研究取得了較大的進(jìn)展。在加拿大召開(kāi)的國(guó)際智能語(yǔ)音領(lǐng)域的會(huì)議ICASSP2018上,谷歌公司發(fā)表的研...
feed-forwardsequentialmemorynetwork,F(xiàn)SMN),在DNN的隱層旁增加了一個(gè)“記憶模塊”,這個(gè)記憶模塊用來(lái)存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的語(yǔ)音信號(hào)的歷史信息和未來(lái)信息,并且只需等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀。隨后,科大訊飛進(jìn)一步提出了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)。2018年,阿里巴巴改良并開(kāi)源了語(yǔ)音識(shí)別模型DFSMN(DeepFSMN)。2018年,中科院自動(dòng)化所率先把Transformer應(yīng)用到語(yǔ)音識(shí)別任務(wù),并進(jìn)一步拓展到中文語(yǔ)音識(shí)別。不管是在研究成果還是在產(chǎn)品性能體驗(yàn)上,國(guó)內(nèi)的語(yǔ)音行業(yè)整體水平已經(jīng)達(dá)到甚至超越了國(guó)際水平。2016年10月,時(shí)任百度首席科...
語(yǔ)音識(shí)別是一門(mén)綜合性學(xué)科,涉及的領(lǐng)域非常廣,包括聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理、概率統(tǒng)計(jì)、信息論、模式識(shí)別和深度學(xué)習(xí)等。語(yǔ)音識(shí)別的基礎(chǔ)理論包括語(yǔ)音的產(chǎn)生和感知過(guò)程、語(yǔ)音信號(hào)基礎(chǔ)知識(shí)、語(yǔ)音特征提取等,關(guān)鍵技術(shù)包括高斯混合模型(GaussianMixtureModel,GMM)、隱馬爾可夫模型(HiddenMarkovModel,HMM)、深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN),以及基于這些模型形成的GMM-HMM、DNN-HMM和端到端(End-to-End,E2E)系統(tǒng)。語(yǔ)言模型和解碼器也非常關(guān)鍵,直接影響語(yǔ)音識(shí)別實(shí)際應(yīng)用的效果。為了讓讀者更好地理解語(yǔ)音信號(hào)的特性,...
即在解碼端通過(guò)搜索技術(shù)尋找優(yōu)詞串的方法。連續(xù)語(yǔ)音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語(yǔ)音信號(hào),從而得到詞解碼序列。搜索所依據(jù)的是對(duì)公式中的聲學(xué)模型打分和語(yǔ)言模型打分。在實(shí)際使用中,往往要依據(jù)經(jīng)驗(yàn)給語(yǔ)言模型加上一個(gè)高權(quán)重,并設(shè)置一個(gè)長(zhǎng)詞懲罰分?jǐn)?shù)。語(yǔ)音識(shí)別本質(zhì)上是一種模式識(shí)別的過(guò)程,未知語(yǔ)音的模式與已知語(yǔ)音的參考模式逐一進(jìn)行比較,佳匹配的參考模式被作為識(shí)別結(jié)果。當(dāng)今語(yǔ)音識(shí)別技術(shù)的主流算法,主要有基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、以及近年來(lái)基于深度學(xué)習(xí)和支持向量機(jī)等語(yǔ)音識(shí)別方法。站在巨人的肩膀上:開(kāi)源...
提升用戶體驗(yàn),仍然是要重點(diǎn)解決的問(wèn)題??谡Z(yǔ)化。每個(gè)說(shuō)話人的口音、語(yǔ)速和發(fā)聲習(xí)慣都是不一樣的,尤其是一些地區(qū)的口音(如南方口音、山東重口音),會(huì)導(dǎo)致準(zhǔn)確率急劇下降。還有電話場(chǎng)景和會(huì)議場(chǎng)景的語(yǔ)音識(shí)別,其中包含很多口語(yǔ)化表達(dá),如閑聊式的對(duì)話,在這種情況下的識(shí)別效果也很不理想。因此語(yǔ)音識(shí)別系統(tǒng)需要提升自適應(yīng)能力,以便更好地匹配個(gè)性化、口語(yǔ)化表達(dá),排除這些因素對(duì)識(shí)別結(jié)果的影響,達(dá)到準(zhǔn)確穩(wěn)定的識(shí)別效果。低資源。特定場(chǎng)景、方言識(shí)別還存在低資源問(wèn)題。手機(jī)APP采集的是16kHz寬帶語(yǔ)音。有大量的數(shù)據(jù)可以訓(xùn)練,因此識(shí)別效果很好,但特定場(chǎng)景如銀行/證券柜臺(tái)很多采用專門(mén)設(shè)備采集語(yǔ)音,保存的采樣格式壓縮比很高...
CNN本質(zhì)上也可以看作是從語(yǔ)音信號(hào)中不斷抽取特征的一個(gè)過(guò)程。CNN相比于傳統(tǒng)的DNN模型,在相同性能情況下,前者的參數(shù)量更少。綜上所述,對(duì)于建模能力來(lái)說(shuō),DNN適合特征映射到空間,LSTM具有長(zhǎng)短時(shí)記憶能力,CNN擅長(zhǎng)減少語(yǔ)音信號(hào)的多樣性,因此一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)是這些網(wǎng)絡(luò)的組合。端到端時(shí)代語(yǔ)音識(shí)別的端到端方法主要是代價(jià)函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒(méi)有太大變化。總體來(lái)說(shuō),端到端技術(shù)解決了輸入序列的長(zhǎng)度遠(yuǎn)大于輸出序列長(zhǎng)度的問(wèn)題。端到端技術(shù)主要分成兩類:一類是CTC方法,另一類是Sequence-to-Sequence方法。傳統(tǒng)語(yǔ)音識(shí)別DNN-HMM架構(gòu)里的聲學(xué)模型,每一幀輸入都...
訓(xùn)練通常來(lái)講都是離線完成的,將海量的未知語(yǔ)音通過(guò)話筒變成信號(hào)之后加在識(shí)別系統(tǒng)的輸入端,經(jīng)過(guò)處理后再根據(jù)語(yǔ)音特點(diǎn)建立模型,對(duì)輸入的信號(hào)進(jìn)行分析,并提取信號(hào)中的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板。識(shí)別則通常是在線完成的,對(duì)用戶實(shí)時(shí)語(yǔ)音進(jìn)行自動(dòng)識(shí)別。這個(gè)過(guò)程又基本可以分為“前端”和“后端”兩個(gè)模塊。前端主要的作用就是進(jìn)行端點(diǎn)檢測(cè)、降噪、特征提取等。后端的主要作用是利用訓(xùn)練好的“聲音模型”和“語(yǔ)音模型”對(duì)用戶的語(yǔ)音特征向量進(jìn)行統(tǒng)計(jì)模式識(shí)別,得到其中包含的文字信息。語(yǔ)音識(shí)別技術(shù)的應(yīng)用語(yǔ)音識(shí)別技術(shù)有著應(yīng)用領(lǐng)域和市場(chǎng)前景。在語(yǔ)音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤(pán),通過(guò)識(shí)別語(yǔ)音中的要求、請(qǐng)求、...
語(yǔ)音文件“/timit/test/dr5/fnlp0/”的波形圖、語(yǔ)譜圖和標(biāo)注SwitchBoard——對(duì)話式電話語(yǔ)音庫(kù),采樣率為8kHz,包含來(lái)自美國(guó)各個(gè)地區(qū)543人的2400條通話錄音。研究人員用這個(gè)數(shù)據(jù)庫(kù)做語(yǔ)音識(shí)別測(cè)試已有20多年的歷史。LibriSpeech——英文語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),總共1000小時(shí),采樣率為16kHz。包含朗讀式語(yǔ)音和對(duì)應(yīng)的文本。Thchs-30——清華大學(xué)提供的一個(gè)中文示例,并配套完整的發(fā)音詞典,其數(shù)據(jù)集有30小時(shí),采樣率為16kHz。AISHELL-1——希爾貝殼開(kāi)源的178小時(shí)中文普通話數(shù)據(jù),采樣率為16kHz。包含400位來(lái)自中國(guó)不同口音地區(qū)的發(fā)音人的語(yǔ)...
CNN本質(zhì)上也可以看作是從語(yǔ)音信號(hào)中不斷抽取特征的一個(gè)過(guò)程。CNN相比于傳統(tǒng)的DNN模型,在相同性能情況下,前者的參數(shù)量更少。綜上所述,對(duì)于建模能力來(lái)說(shuō),DNN適合特征映射到空間,LSTM具有長(zhǎng)短時(shí)記憶能力,CNN擅長(zhǎng)減少語(yǔ)音信號(hào)的多樣性,因此一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)是這些網(wǎng)絡(luò)的組合。端到端時(shí)代語(yǔ)音識(shí)別的端到端方法主要是代價(jià)函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒(méi)有太大變化??傮w來(lái)說(shuō),端到端技術(shù)解決了輸入序列的長(zhǎng)度遠(yuǎn)大于輸出序列長(zhǎng)度的問(wèn)題。端到端技術(shù)主要分成兩類:一類是CTC方法,另一類是Sequence-to-Sequence方法。傳統(tǒng)語(yǔ)音識(shí)別DNN-HMM架構(gòu)里的聲學(xué)模型,每一幀輸入都...
傳統(tǒng)的人機(jī)交互依靠復(fù)雜的鍵盤(pán)或按鈕來(lái)實(shí)現(xiàn),隨著科技的發(fā)展,一些新型的人機(jī)交互方式也隨之誕生,帶給人們?nèi)碌捏w驗(yàn)?;谡Z(yǔ)音識(shí)別的人機(jī)交互方式是目前熱門(mén)的技術(shù)之一。但是語(yǔ)音識(shí)別功能算法復(fù)雜、計(jì)算量大,一般在計(jì)算機(jī)上實(shí)現(xiàn),即使是嵌入式方面,多數(shù)方案也需要運(yùn)算能力強(qiáng)的ARM或DSP,并且外擴(kuò)RAM、FLASH等資源,增加了硬件成本,這些特點(diǎn)無(wú)疑限制了語(yǔ)音識(shí)別技術(shù)的應(yīng)用,尤其是嵌入式領(lǐng)域。本系統(tǒng)采用的主控MCU為Atmel公司的ATMEGA128,語(yǔ)音識(shí)別功能則采用ICRoute公司的單芯片LD3320。LD3320內(nèi)部集成優(yōu)化過(guò)的語(yǔ)音識(shí)別算法,無(wú)需外部FLASH,RAM資源,可以很好地完成...
語(yǔ)音識(shí)別在噪聲中比在安靜的環(huán)境下要難得多。目前主流的技術(shù)思路是,通過(guò)算法提升降低誤差。首先,在收集的原始語(yǔ)音中,提取抗噪性較高的語(yǔ)音特征。然后,在模型訓(xùn)練的時(shí)候,結(jié)合噪聲處理算法訓(xùn)練語(yǔ)音模型,使模型在噪聲環(huán)境里的魯棒性較高。在語(yǔ)音解碼的過(guò)程中進(jìn)行多重選擇,從而提高語(yǔ)音識(shí)別在噪聲環(huán)境中的準(zhǔn)確率。完全消除噪聲的干擾,目前而言,還停留在理論層面。(3)模型的有效性識(shí)別系統(tǒng)中的語(yǔ)言模型、詞法模型在大詞匯量、連續(xù)語(yǔ)音識(shí)別中還不能完全正確的發(fā)揮作用,需要有效地結(jié)合語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等其他學(xué)科的知識(shí)。并且,語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)向商品的轉(zhuǎn)化過(guò)程中還有許多具體細(xì)節(jié)技術(shù)問(wèn)題需要解決。智能語(yǔ)音識(shí)...