【中國安防展覽網(wǎng) 企業(yè)關(guān)注】把語音智能硬件作為一切服務(wù)的入口,是大公司的一種面向未來的選擇。目前,除了谷歌(Assistant)、蘋果(Siri)、微軟(Cortana)和亞馬遜(Alexa)等巨頭,國內(nèi)的科大訊飛、騰訊、百度、阿里等企業(yè)也在智能語音主戰(zhàn)場上角逐。業(yè)內(nèi)人士接受采訪時坦言,雖然智能語音產(chǎn)業(yè)已步入應(yīng)用的快速增長期,但是智能語音的性、應(yīng)用場景、遠程識別等方面存在的問題也有待突破。
智能語音市場激戰(zhàn)正酣 場景識別準確率是決勝關(guān)鍵
巨頭多領(lǐng)域布局 智能語音
智能語音識別作為人工智能應(yīng)用成熟的技術(shù)之一, 目前已經(jīng)深入生活的方方面面,智能語音產(chǎn)業(yè)的市場藍海正在顯現(xiàn)。極限元智能科技CEO雷臻表示,未來,智能語音技術(shù)會出現(xiàn)在更多專業(yè)領(lǐng)域,如交通、醫(yī)療、建筑等。
過去幾年,國外智能語音識別技術(shù)遠遠超過中國,谷歌、亞馬遜、蘋果等巨頭都在相關(guān)產(chǎn)業(yè)鏈上布局,牢牢占據(jù)壟斷地位。而近年來,中國的智能語音產(chǎn)業(yè)發(fā)展迅猛,以BAT等為代表的眾多互聯(lián)網(wǎng)巨頭也紛紛開發(fā)智能語音市場。
在語音生態(tài)系統(tǒng)方面,百度宣布語音識別技術(shù)及能力全面開放,騰訊、搜狗語音開放平臺相繼上線。智能家居領(lǐng)域,百度發(fā)布了Baidu ihome,阿里聯(lián)合智能家電廠商推出天貓魔盒,搜狗聯(lián)手魅族,發(fā)布魅族電視盒子。在SpeakIn(勢必可贏科技)相關(guān)負責人看來,現(xiàn)階段智能語音的應(yīng)用主要還是語音錄入與語音交互,隨著技術(shù)的快速迭代,未來,智能語音技術(shù)會延伸到更廣泛的智能服務(wù)場景。
北京得意音通技術(shù)有限責任公司副總經(jīng)理肖永明表示,隨著移動互聯(lián)網(wǎng)的普及,以手機為代表的智能終端將是智能語音技術(shù)的佳入口,因為它的普及程度高,成本低廉,已經(jīng)具備了廣泛的群眾基礎(chǔ)。同時,他也表示,目前手機等終端在智能語音技術(shù)上的技術(shù)潛力還遠遠沒有被挖掘出來。
場景識別準確率 待提高
在語音識別率方面,百度、科大訊飛等主流平臺識別準確率均在96%以上,穩(wěn)定的識別能力為語音技術(shù)的落地提供了可能??拼笥嶏w董事長劉慶峰表示,“人工智能+”的時代已切實到來,在此背景下,人工智能改變世界的三個要素是核心技術(shù)、行業(yè)專家和行業(yè)大數(shù)據(jù)結(jié)合在一起。
目前,智能語音在識別準確率和應(yīng)用場景方面還有待進一步提高。雷臻認為,現(xiàn)在的語音識別還需要*語種進行有效識別,而未來的語音識別技術(shù)會自動適應(yīng)語言語種,無論中文、外語、方言都能快速辨別并進行有效識別。他還表示,目前,雖然已經(jīng)出現(xiàn)一些離線語音識別技術(shù),但是準確率還是遠低于在線識別,未來語音識別引擎的可移植性將更高,甚至可以脫離高性能計算服務(wù)器,在離線的終端上實現(xiàn)識別。
雷臻還分析道,在垂直領(lǐng)域應(yīng)用過程中,專有名詞、專業(yè)領(lǐng)域知識缺乏的情況下,現(xiàn)有的識別系統(tǒng)很難得到較高的識別準確率。比如在方言、口音上,現(xiàn)有的識別系統(tǒng)除了在訓(xùn)練語料上增加相應(yīng)口音的語音數(shù)據(jù)和相應(yīng)方言的文本語料外,還沒有一個很好的解決方案。“近年來隨著遷移學(xué)習(xí)的發(fā)展,采用遷移學(xué)習(xí)進行在線快速自適應(yīng),為解決方言、口音問題提供了一個可行的解決思路。”
隨著智能語音技術(shù)的不斷成熟及其與其他信息技術(shù)的不斷融合,智能語音有望在更多垂直行業(yè)得到應(yīng)用,并推動這些垂直行業(yè)加快向智能化方向的發(fā)展。肖永明分析道,智能語音要解決的問題還很多,比如如何提高噪聲環(huán)境下的語音識別準確率,如何在數(shù)據(jù)模型訓(xùn)練時從數(shù)據(jù)“洪水”中提取有價值數(shù)據(jù),如何提高識別引擎的可移植性,在語音識別技術(shù)跟其他技術(shù)進行對接融合時,如何解決具體的行業(yè)應(yīng)用場景需求等。
遠場識別是一個具有挑戰(zhàn)性的問題,對此,劉慶峰表示,目前遠場識別的錯誤率是近場的兩倍左右,所以解決遠場以及強噪聲干擾情況下的語音識別是目前的一個有待進一步研究的問題。
此外,SpeakIn(勢必可贏科技)相關(guān)負責人也認為,傳統(tǒng)智能語音技術(shù)的瓶頸在于它的核心是語義識別,不能區(qū)分說話人身份,也就無法提供相應(yīng)的個性化服務(wù),而未來消費者的需求一定是個性化的。語音場景下要解決身份識別的問題,需要基于聲紋生物信息ID的聲紋識別技術(shù)支持。
原標題 企業(yè)角逐智能語音市場識別準確率及場景應(yīng)用待突破
版權(quán)與免責聲明:
凡本網(wǎng)注明“來源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。
本網(wǎng)轉(zhuǎn)載并注明自其它來源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權(quán)等法律責任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。