【中國(guó)安防展覽網(wǎng) 企業(yè)關(guān)注】中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟數(shù)據(jù)顯示,2015年智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)61.2億美元,同比增長(zhǎng)34.2%,預(yù)計(jì)到2017年市場(chǎng)總規(guī)模將超過(guò)100億美元。其中,2015年中國(guó)智能語(yǔ)音市場(chǎng)規(guī)模達(dá)40.3億元,同比增長(zhǎng)41%,高于同期增速。預(yù)計(jì)未來(lái)兩年,中國(guó)市場(chǎng)將保持60%左右的增速,市場(chǎng)份額將進(jìn)一步提升,側(cè)面說(shuō)明統(tǒng)計(jì)機(jī)構(gòu)對(duì)國(guó)內(nèi)語(yǔ)音市場(chǎng)的認(rèn)可。
近二十年,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,但識(shí)別的準(zhǔn)確性問(wèn)題一直阻礙著智能語(yǔ)音的進(jìn)一步發(fā)展。隨著準(zhǔn)確性的提升,語(yǔ)音識(shí)別應(yīng)用范圍將不斷拓寬,語(yǔ)音交互也逐漸成為可能。
語(yǔ)音識(shí)別是一門交叉學(xué)科,也被稱為自動(dòng)語(yǔ)音識(shí)別。其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含的詞匯內(nèi)容。
二十世紀(jì)末,語(yǔ)音識(shí)別系統(tǒng)已經(jīng)在電腦游戲和玩具,不同樂(lè)器的控制,數(shù)據(jù)采集和聽(tīng)寫(xiě)等方面發(fā)現(xiàn)了廣泛的應(yīng)用。而在近二十年,由于人工智能和機(jī)器學(xué)習(xí)迅猛發(fā)展,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,語(yǔ)音控制也變得更為實(shí)用,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。
《互聯(lián)網(wǎng)趨勢(shì)》報(bào)告中曾談及語(yǔ)音將是人機(jī)交互的新范式,語(yǔ)音技術(shù)將解放人類雙手和眼睛,用戶以較低的成本實(shí)現(xiàn)隨時(shí)訪問(wèn)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。未來(lái)與智能家居、可穿戴設(shè)備、機(jī)器人等交互模式,語(yǔ)音將是佳人機(jī)交互模式。
據(jù)悉,智能語(yǔ)音技術(shù)涉及多個(gè)學(xué)科,具備技術(shù)壁壘較高,研發(fā)周期長(zhǎng),投入大等屬性,只有綜合實(shí)力突出的廠商才能脫穎而出,因此造就寡頭壟斷市場(chǎng)格局。自2011年蘋果開(kāi)發(fā)個(gè)智能語(yǔ)音助手Siri之后,Google、微軟、亞馬遜、Facebook陸續(xù)加入陣營(yíng),這些智能助手各自嫁接在智能移動(dòng)設(shè)備終端上。
但識(shí)別的準(zhǔn)確性問(wèn)題一直阻礙著智能語(yǔ)音的不斷發(fā)展。目前在實(shí)際應(yīng)用中,我們看見(jiàn)語(yǔ)音識(shí)別多是在智能家居領(lǐng)域,比如智能家電或智能音箱。此時(shí),我們就需要考慮一個(gè)問(wèn)題了,當(dāng)多個(gè)家庭成員同時(shí)講話時(shí),智能家電或智能音箱該執(zhí)行誰(shuí)的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當(dāng)前語(yǔ)音識(shí)別所需要解決的問(wèn)題,畢竟我們通常所說(shuō)的語(yǔ)音識(shí)別不僅僅只是單純的對(duì)語(yǔ)音內(nèi)容進(jìn)行識(shí)別。
在這一方面,微軟近有了新進(jìn)展。微軟語(yǔ)音團(tuán)隊(duì)黃學(xué)東介紹,“去年10月,在我們的轉(zhuǎn)錄系統(tǒng)達(dá)到5.9%的錯(cuò)誤率之后,其他研究人員也進(jìn)行了自己的研究,采用了更多參與的多轉(zhuǎn)錄程序,將錯(cuò)誤率降低至5.1%。這是一個(gè)新的行業(yè)里程碑,大大超過(guò)了去年實(shí)現(xiàn)的準(zhǔn)確性。”
按照黃學(xué)東所說(shuō),從研究角度來(lái)說(shuō),這個(gè)意義十分重大,即便是0.1%的差距,無(wú)論是運(yùn)算量還是時(shí)間,耗費(fèi)都是巨大的:“你知道0.1、0.2、0.3的差距要跑多少時(shí)間才會(huì)達(dá)到,錯(cuò)誤率的計(jì)算應(yīng)該按照相對(duì)錯(cuò)誤率來(lái)看,5.9到5.1相對(duì)錯(cuò)誤率應(yīng)該是13%左右,相對(duì)錯(cuò)誤率超過(guò)13%,統(tǒng)計(jì)上已經(jīng)有重要意義了。”簡(jiǎn)單來(lái)說(shuō),微軟語(yǔ)音團(tuán)隊(duì)是通過(guò)改進(jìn)微軟語(yǔ)音識(shí)別系統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)和語(yǔ)言模型,將錯(cuò)誤率大大降低。
隨著準(zhǔn)確性的提升,語(yǔ)音識(shí)別應(yīng)用范圍將不斷拓寬,語(yǔ)音交互也逐漸成為可能。不過(guò)在語(yǔ)音識(shí)別更新迭代的過(guò)程中,新舊共存現(xiàn)象必可避免,在初期混亂的市場(chǎng)藍(lán)海中,只有看清發(fā)展大勢(shì),方能真正抓住機(jī)遇,迎來(lái)新發(fā)展。
原標(biāo)題 語(yǔ)音識(shí)別準(zhǔn)確率大幅提升 人機(jī)交互開(kāi)啟新模式
版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明“來(lái)源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。