激情综合色综合久久综合,国产综合色产在线视频欧美,欧美国产 视频1,国产 日韩 欧美 第二页

    1. <small id="5q05l"></small>

        <pre id="5q05l"></pre>
        <sub id="5q05l"></sub>
        <small id="5q05l"></small>

        北京汽車語(yǔ)音識(shí)別

        來(lái)源: 發(fā)布時(shí)間:2024-06-24

            還可能存在語(yǔ)種混雜現(xiàn)象,如中英混雜(尤其是城市白領(lǐng))、普通話與方言混雜,但商業(yè)機(jī)構(gòu)在這方面的投入還不多,對(duì)于中英混雜語(yǔ)音一般*能識(shí)別簡(jiǎn)單的英文詞匯(如"你家Wi-Fi密碼是多少"),因此如何有效提升多語(yǔ)種識(shí)別的準(zhǔn)確率,也是當(dāng)前語(yǔ)音識(shí)別技術(shù)面臨的挑戰(zhàn)之一。語(yǔ)音識(shí)別建模方法語(yǔ)音識(shí)別建模方法主要分為模板匹配、統(tǒng)計(jì)模型和深度模型幾種類型,以下分別介紹DTW、GMM-HMM、DNN-HMM和端到端模型。往往會(huì)因?yàn)檎Z(yǔ)速、語(yǔ)調(diào)等差異導(dǎo)致這個(gè)詞的發(fā)音特征和時(shí)間長(zhǎng)短各不相同。這樣就造成通過(guò)采樣得到的語(yǔ)音數(shù)據(jù)在時(shí)間軸上無(wú)法對(duì)齊的情況。如果時(shí)間序列無(wú)法對(duì)齊,那么傳統(tǒng)的歐氏距離是無(wú)法有效地衡量出這兩個(gè)序列間真實(shí)的相似性的。而DTW的提出就是為了解決這一問(wèn)題,它是一種將兩個(gè)不等長(zhǎng)時(shí)間序列進(jìn)行對(duì)齊并且衡量出這兩個(gè)序列間相似性的有效方法。DTW采用動(dòng)態(tài)規(guī)劃的算法思想,通過(guò)時(shí)間彎折,實(shí)現(xiàn)P和Q兩條語(yǔ)音的不等長(zhǎng)匹配,將語(yǔ)音匹配相似度問(wèn)題轉(zhuǎn)換為**優(yōu)路徑問(wèn)題。DTW是模板匹配法中的典型方法,非常適合用于小詞匯量孤立詞語(yǔ)音識(shí)別系統(tǒng)。但DTW過(guò)分依賴端點(diǎn)檢測(cè),不適合用于連續(xù)語(yǔ)音識(shí)別,DTW對(duì)特定人的識(shí)別效果較好。動(dòng)態(tài)時(shí)間規(guī)整(DTW),它是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來(lái)的。隨著人工智能的火熱,現(xiàn)階段越來(lái)越多的產(chǎn)品都想要加入語(yǔ)音功能。北京汽車語(yǔ)音識(shí)別

            取距離近的樣本所對(duì)應(yīng)的詞標(biāo)注為該語(yǔ)音信號(hào)的發(fā)音。該方法對(duì)解決孤立詞識(shí)別是有效的,但對(duì)于大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別就無(wú)能為力。因此,進(jìn)入80年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。HMM的理論基礎(chǔ)在1970年前后就已經(jīng)由Baum等人建立起來(lái),隨后由CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語(yǔ)音識(shí)別當(dāng)中。HMM模型假定一個(gè)音素含有3到5個(gè)狀態(tài),同一狀態(tài)的發(fā)音相對(duì)穩(wěn)定,不同狀態(tài)間是可以按照一定概率進(jìn)行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來(lái)描述,使用***的模型是GMM。因此GMM-HMM框架中,HMM描述的是語(yǔ)音的短時(shí)平穩(wěn)的動(dòng)態(tài)性,GMM用來(lái)描述HMM每一狀態(tài)內(nèi)部的發(fā)音特征?;贕MM-HMM框架,研究者提出各種改進(jìn)方法,如結(jié)合上下文信息的動(dòng)態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN混合模型方法等。這些方法都對(duì)語(yǔ)音識(shí)別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語(yǔ)音識(shí)別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì)90年代語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長(zhǎng)一段內(nèi)語(yǔ)音識(shí)別的發(fā)展比較緩慢,語(yǔ)音識(shí)別錯(cuò)誤率那條線一直沒(méi)有明顯下降。DNN-HMM時(shí)代2006年。寧夏語(yǔ)音識(shí)別設(shè)置隨著語(yǔ)音識(shí)別技術(shù)在未來(lái)的不斷發(fā)展,語(yǔ)音識(shí)別芯片的不敢提高,給我們的生活帶來(lái)了更大的便利和智能化。

            DFCNN使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,主要借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多卷積池化層對(duì),從而可以看到更多的歷史信息。2018年,阿里提出LFR-DFSMN(LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks)。該模型將低幀率算法和DFSMN算法進(jìn)行融合,語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低20%,解碼速度提升3倍。FSMN通過(guò)在FNN的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效的對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。而DFSMN是通過(guò)跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問(wèn)題,可以訓(xùn)練出更深層的網(wǎng)絡(luò)結(jié)構(gòu)。2019年,百度提出了流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,該模型是在LSTM和CTC的基礎(chǔ)上引入了注意力機(jī)制來(lái)獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對(duì)語(yǔ)音進(jìn)行一個(gè)小片段一個(gè)小片段的增量解碼;多級(jí)表示堆疊多層注意力模型;截?cái)鄤t表示利用CTC模型的尖峰信息,把語(yǔ)音切割成一個(gè)一個(gè)小片段,注意力模型和解碼可以在這些小片段上展開(kāi)。在線語(yǔ)音識(shí)別率上,該模型比百度上一代DeepPeak2模型提升相對(duì)15%的性能。開(kāi)源語(yǔ)音識(shí)別Kaldi是業(yè)界語(yǔ)音識(shí)別框架的基石。

           

            英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則shou次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器。語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。di一階段:模板匹配(DTW)20世紀(jì)60年代,一些重要的語(yǔ)音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來(lái)。1964年,Martin為了解決語(yǔ)音時(shí)長(zhǎng)不一致的問(wèn)題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語(yǔ)音的端點(diǎn),這可以有效地降低語(yǔ)音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語(yǔ)音識(shí)別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的Reddy利用動(dòng)態(tài)音素的方法進(jìn)行了連續(xù)語(yǔ)音識(shí)別,這是一項(xiàng)開(kāi)創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyukshou次提出將動(dòng)態(tài)規(guī)劃算法應(yīng)用于對(duì)語(yǔ)音信號(hào)的時(shí)間規(guī)整。雖然在他的工作中,動(dòng)態(tài)時(shí)間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時(shí)并沒(méi)有引起足夠的重視。這三項(xiàng)研究工作,為此后幾十年語(yǔ)音識(shí)別的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。雖然在這10年中語(yǔ)音識(shí)別理論取得了明顯的進(jìn)步。但是這距離實(shí)現(xiàn)真正實(shí)用且可靠的語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn)。20世紀(jì)70年代。多人語(yǔ)音識(shí)別及離線語(yǔ)音識(shí)別也是當(dāng)前需要重點(diǎn)解決的問(wèn)題。

            該模型比百度上一代DeepPeak2模型提升相對(duì)15%的性能。開(kāi)源語(yǔ)音識(shí)別Kaldi是業(yè)界語(yǔ)音識(shí)別框架的基石。Kaldi的作者DanielPovey一直推崇的是Chain模型。該模型是一種類似于CTC的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個(gè)狀態(tài),一個(gè)狀態(tài)是CDPhone,另一個(gè)是CDPhone的空白,訓(xùn)練方法采用的是Lattice-FreeMMI訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有提升。遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問(wèn)題,是2015年以后開(kāi)始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問(wèn)題,在智能家居、智能汽車、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了應(yīng)用。目前國(guó)內(nèi)遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語(yǔ)音識(shí)別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理,以讓語(yǔ)音更清晰,然后送入后端的語(yǔ)音識(shí)別引擎進(jìn)行識(shí)別。語(yǔ)音識(shí)別另外兩個(gè)技術(shù)部分:語(yǔ)言模型和解碼器,目前來(lái)看并沒(méi)有太大的技術(shù)變化。語(yǔ)言模型主流還是基于傳統(tǒng)的N-Gram方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的研究,但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的指標(biāo)是速度。伴隨著語(yǔ)音識(shí)別系統(tǒng)走向?qū)嵱没Z(yǔ)音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得進(jìn)展。湖北關(guān)閉語(yǔ)音識(shí)別

        該領(lǐng)域的大部分進(jìn)展歸功于計(jì)算機(jī)能力的迅速提高。北京汽車語(yǔ)音識(shí)別

            feed-forwardsequentialmemorynetwork,F(xiàn)SMN),在DNN的隱層旁增加了一個(gè)“記憶模塊”,這個(gè)記憶模塊用來(lái)存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的語(yǔ)音信號(hào)的歷史信息和未來(lái)信息,并且只需等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀。隨后,科大訊飛進(jìn)一步提出了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)。2018年,阿里巴巴改良并開(kāi)源了語(yǔ)音識(shí)別模型DFSMN(DeepFSMN)。2018年,中科院自動(dòng)化所率先把Transformer應(yīng)用到語(yǔ)音識(shí)別任務(wù),并進(jìn)一步拓展到中文語(yǔ)音識(shí)別。不管是在研究成果還是在產(chǎn)品性能體驗(yàn)上,國(guó)內(nèi)的語(yǔ)音行業(yè)整體水平已經(jīng)達(dá)到甚至超越了國(guó)際水平。2016年10月,時(shí)任百度首席科學(xué)家的吳恩達(dá)在對(duì)微軟的語(yǔ)音識(shí)別技術(shù)與人類水平持平的消息表示祝賀的同時(shí)聲稱,百度的漢語(yǔ)語(yǔ)音識(shí)別在2015年就已經(jīng)超越了人類的平均水平,也就是說(shuō)百度比微軟提前一年實(shí)現(xiàn)了這一成績(jī)。當(dāng)前語(yǔ)音識(shí)別系統(tǒng)依然面臨著不少應(yīng)用挑戰(zhàn),其中包括以下主要問(wèn)題:魯棒性。目前語(yǔ)音識(shí)別準(zhǔn)確率超過(guò)人類水平主要還是在受限的場(chǎng)景下,比如在安靜環(huán)境的情況下,而一旦加入干擾信號(hào),尤其是環(huán)境噪聲和人聲干擾,性能往往會(huì)明顯下降。因此,如何在復(fù)雜場(chǎng)景(包括非平穩(wěn)噪聲、混響、遠(yuǎn)場(chǎng))下,提高語(yǔ)音識(shí)別的魯棒性,研發(fā)"能用=>好用"的語(yǔ)音識(shí)別產(chǎn)品。北京汽車語(yǔ)音識(shí)別