avav588con,最近2019中文免费字幕在线观看,欧美一道本一区二区三区,九九热在线观看,经典好看免费AV

移動(dòng)版

當(dāng)前位置:智慧城市網(wǎng)資訊中心品牌專欄

新發(fā)產(chǎn)品更多
云從科技端到端語(yǔ)音識(shí)別錯(cuò)詞率低至3.4%
2018年11月13日 10:23:23來(lái)源:云從科技點(diǎn)擊量:35680
導(dǎo)讀端到端的語(yǔ)音模型越來(lái)越多的引起學(xué)術(shù)界及工業(yè)界的關(guān)注,日前,云從科技在端到端的語(yǔ)音識(shí)別(ASR)領(lǐng)域上再獲突破,在LibriSpeech的test-clean數(shù)據(jù)集上的錯(cuò)詞率降低到至3.4%左右,超過(guò)了百度、約翰霍斯大學(xué)、亞琛工業(yè)大學(xué)等企業(yè)及高校在端到端模型上取得的效果。
  【中國(guó)安防展覽網(wǎng) 品牌專欄】端到端的語(yǔ)音模型越來(lái)越多的引起學(xué)術(shù)界及工業(yè)界的關(guān)注,日前,云從科技在端到端的語(yǔ)音識(shí)別(ASR)領(lǐng)域上再獲突破,在LibriSpeech的test-clean數(shù)據(jù)集上的錯(cuò)詞率降低到至3.4%左右,超過(guò)了百度、約翰霍斯大學(xué)、亞琛工業(yè)大學(xué)等企業(yè)及高校在端到端模型上取得的效果。
 


 

  背景導(dǎo)讀
 
  語(yǔ)音識(shí)別的技術(shù)歷史悠久,早在上世紀(jì)50年代,貝爾研究所就研究出了可以識(shí)別十個(gè)英文數(shù)字的簡(jiǎn)單系統(tǒng)。從上世紀(jì)70年代起,傳統(tǒng)的基于統(tǒng)計(jì)的HMM聲學(xué)模型,N元組語(yǔ)言模型的發(fā)明,已經(jīng)使得語(yǔ)音識(shí)別技術(shù)可以在小規(guī)模詞匯量上使用。在新世紀(jì)伊始,GMM-HMM模型的序列鑒別性訓(xùn)練方法的提出又進(jìn)一步提升了語(yǔ)音識(shí)別的準(zhǔn)確率。近5-10年間,隨著深度學(xué)習(xí)的快速發(fā)展,算力的快速增長(zhǎng),數(shù)據(jù)量的急速擴(kuò)張,深度學(xué)習(xí)開(kāi)始大規(guī)模應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域并取得突破性進(jìn)展,深度模型已經(jīng)可以在干凈標(biāo)準(zhǔn)的獨(dú)白類音頻上達(dá)到5%以下的錯(cuò)詞率。
 
  而云從科技的語(yǔ)音識(shí)別技術(shù)又將現(xiàn)有的錯(cuò)詞率進(jìn)一步降低到3.5%以下,并同時(shí)大幅的減少了模型的訓(xùn)練和預(yù)測(cè)時(shí)間。此外,端到端的模型可以輕松的將各種語(yǔ)言揉合在一個(gè)模型中,不需要做額外的音素詞典的準(zhǔn)備,這將大大推動(dòng)業(yè)界技術(shù)研究與應(yīng)用落地的進(jìn)度。
 
  模型優(yōu)勢(shì)
 
  在現(xiàn)在主流的利用深度學(xué)習(xí)的語(yǔ)音識(shí)別模型中仍在存在多種派系,一種是利用深度學(xué)習(xí)模型取代原來(lái)的GMM部分,即DNN-HMM類的模型,另一種則是作者采用的端到端的深度學(xué)習(xí)模型。
 
  種模型需要先實(shí)現(xiàn)HMM結(jié)構(gòu)與語(yǔ)音的對(duì)齊,然后才能進(jìn)一步地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。除此之外,在訓(xùn)練這一類的模型時(shí),訓(xùn)練樣本的標(biāo)注不僅僅是原本的文本,還需要對(duì)文本進(jìn)一步的拆解成為音素投入訓(xùn)練,這對(duì)于標(biāo)注部分的工作就會(huì)造成極大的挑戰(zhàn)。在解碼的時(shí)候,這種模型同樣還需要依賴這個(gè)發(fā)音詞典。
 
  端到端的模型旨在一步直接實(shí)現(xiàn)語(yǔ)音的輸入與解碼識(shí)別,從而不需要繁雜的對(duì)齊工作與發(fā)音詞典制作工作,具有了可以節(jié)省大量的前期準(zhǔn)備時(shí)間的優(yōu)勢(shì),真正的做到數(shù)據(jù)拿來(lái)就可用。
 
  端到端的模型的另一個(gè)優(yōu)點(diǎn)是,更換識(shí)別語(yǔ)言體系時(shí)可以利用相同的框架結(jié)構(gòu)直接訓(xùn)練。例如同樣的網(wǎng)絡(luò)結(jié)構(gòu)可以訓(xùn)練包含26個(gè)字符的英文模型,也可以訓(xùn)練包含3000個(gè)常用漢字的中文模型,甚至可以將中英文的詞典直接合在一起,訓(xùn)練一個(gè)混合模型。
 
  此外,重要的一點(diǎn)是,端到端的模型在預(yù)測(cè)時(shí)的速度更快,對(duì)于一個(gè)10 秒左右的音頻文件,端到端的模型在一塊GPU的服務(wù)器上僅需0.2秒左右的時(shí)間便可給出預(yù)測(cè)結(jié)果。
 
  現(xiàn)在的語(yǔ)音識(shí)別問(wèn)題有如下幾個(gè)難點(diǎn):
 
  (1)對(duì)自然語(yǔ)言的識(shí)別和理解;
 
  (2)語(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同,對(duì)同一說(shuō)話人也是不同的,一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的;
 
  (3)語(yǔ)音的模糊性。說(shuō)話者在講話時(shí),不同的詞可能聽(tīng)起來(lái)是相似的;
 
  (4)單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。
 
  端到端的模型由于不引入傳統(tǒng)的音素或詞的概念,直接訓(xùn)練音頻到文本的模型,可以有效地規(guī)避上述難點(diǎn)。云從科技在原有的端到端模型上又提出了自己的改進(jìn)點(diǎn),進(jìn)一步提升了模型的準(zhǔn)確率。
 
  研究成果
 
  在語(yǔ)音識(shí)別領(lǐng)域,LibriSpeech是朗讀語(yǔ)音類的主流數(shù)據(jù)集,包含960小時(shí)的訓(xùn)練集數(shù)據(jù)。錯(cuò)詞率(Word Error Rate)則是衡量語(yǔ)音識(shí)別技術(shù)的關(guān)鍵指標(biāo)。預(yù)測(cè)文本通過(guò)替換,刪除,增加單詞這三種操作可以達(dá)到與標(biāo)注文本完全一致所需要的操作步數(shù)即為該句子的錯(cuò)詞數(shù),錯(cuò)詞率=錯(cuò)詞數(shù)/總詞數(shù)。
 
  云從科技基于端到端的語(yǔ)音識(shí)別網(wǎng)絡(luò)進(jìn)行了兩種方法的探索,一種是基于原有的CNN-RNN-CTC網(wǎng)絡(luò)的改進(jìn),一種是基于CTC loss與attention loss結(jié)合機(jī)制的網(wǎng)絡(luò)。
 
  種方法基于百度提出的Deep Speech 2 CNN-RNN-CTC模型,著重改進(jìn)于原網(wǎng)絡(luò)中的RNN部分。因?yàn)镽NN部分是整個(gè)系統(tǒng)中對(duì)于語(yǔ)義和語(yǔ)法為關(guān)鍵的部分,而這一部分也是現(xiàn)在語(yǔ)音識(shí)別技術(shù)錯(cuò)誤多的部分。
 
  作者將原本網(wǎng)絡(luò)中簡(jiǎn)單的GRU或LSTM等RNN結(jié)構(gòu)替換成了resBiLSTM,即殘差雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),以助于網(wǎng)絡(luò)抓取復(fù)雜語(yǔ)句中的上下文信息。此外,在語(yǔ)音識(shí)別領(lǐng)域,作者提出了級(jí)聯(lián)結(jié)構(gòu)的思想,對(duì)于單一模型中難分的樣本進(jìn)行二次細(xì)分,從而提高了這些難分樣本的準(zhǔn)確率。在Librispeech test-clean測(cè)試的WER達(dá)到3.41%,效果相比于之前提升了34%。同時(shí),在訓(xùn)練時(shí)間上,相比于原來(lái)的模型,訓(xùn)練從24500秒一次迭代降到18500秒一次迭代,時(shí)間上節(jié)省了25%。
 
  第二種方法使用混合CTC與attention共同解碼,在Espnet網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了優(yōu)化。一方面針對(duì)混合模型的特點(diǎn)改進(jìn)了當(dāng)前CTC解碼器結(jié)構(gòu),另一方面針對(duì)基于subword的編解碼方式使用了更適合的attention smoothing,加上訓(xùn)練中使用的一些其他tricks,在Librispeech test-clean測(cè)試的WER達(dá)到3.34%。
 
關(guān)鍵詞 云從科技語(yǔ)音識(shí)別
相關(guān)閱讀更多
版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明“來(lái)源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

正在閱讀:云從科技端到端語(yǔ)音識(shí)別錯(cuò)詞率低至3.4%
我要投稿
  • 投稿請(qǐng)發(fā)送郵件至:(郵件標(biāo)題請(qǐng)備注“投稿”)afzhan@foxmail.com
  • 聯(lián)系電話0571-87756384
智慧城市行業(yè)“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
智慧城市網(wǎng)APP

功能豐富 實(shí)時(shí)交流

智慧城市網(wǎng)小程序

訂閱獲取更多服務(wù)

微信公眾號(hào)

關(guān)注我們

抖音

智慧城市網(wǎng)

抖音號(hào):afzhan

打開(kāi)抖音 搜索頁(yè)掃一掃
i

視頻號(hào)

AF智慧城市網(wǎng)

視頻號(hào)ID:sphF7DOyrojJnp8

打開(kāi)微信掃碼關(guān)注視頻號(hào)

小紅書(shū)

智慧城市

小紅書(shū)ID:2537047074

打開(kāi)小紅書(shū) 掃一掃關(guān)注
反饋