【中國(guó)安防展覽網(wǎng) 視點(diǎn)跟蹤】 12月14日消息,彭博社發(fā)布文章稱(chēng),要能夠與我們的電子設(shè)備進(jìn)行自然的對(duì)話,那語(yǔ)音識(shí)別技術(shù)必須要有更加顯著的改善。為此,各家科技巨頭紛紛積極收集任何它們能夠收集到的語(yǔ)言、口音和方言語(yǔ)音。
語(yǔ)音識(shí)別遇瓶頸 何時(shí)才能更進(jìn)一步?
以下是文章主要內(nèi)容:
亞馬遜的Echo智能音響讓家家戶(hù)戶(hù)都有帶人工智能的個(gè)人助手變得切實(shí)可行。那些擁有該款聲控設(shè)備的人都對(duì)Alexa贊譽(yù)有加,稱(chēng)贊它能夠幫助通過(guò)Uber叫車(chē),訂購(gòu)比薩餅,又或者檢查10年級(jí)學(xué)生的數(shù)學(xué)作業(yè)。亞馬遜稱(chēng),每天有逾5000人表達(dá)對(duì)Alexa的喜愛(ài)。
另一方面,Alexa信徒們也知道,除非你緩慢地用非常清晰而的語(yǔ)言去跟她說(shuō)話,否則她很可能會(huì)跟你說(shuō),“對(duì)比起,我不知道那個(gè)問(wèn)題的答案。”有位顧客在亞馬遜的網(wǎng)站上評(píng)價(jià)道,“我愛(ài)她,我恨她,我愛(ài)她。”不過(guò)他還是給于Alexa五星評(píng)價(jià)。“你很快就會(huì)學(xué)會(huì)如何用一種她會(huì)明白的方式跟她說(shuō)話,這就像是跟一個(gè)不高興的小孩子說(shuō)話一樣。”
語(yǔ)音識(shí)別在過(guò)去幾年里取得了很大的進(jìn)展。但這還不足以令該技術(shù)普及到日常生活的方方面面,還不足以人機(jī)交互新時(shí)代的到來(lái),還不足以讓人們輕松自如地與身邊所有的設(shè)備(如汽車(chē)、洗衣機(jī)和電視機(jī))進(jìn)行交談。在可預(yù)見(jiàn)的未來(lái)里,這種情況可能還會(huì)延續(xù)。
發(fā)展障礙
那么是什么因素導(dǎo)致語(yǔ)音識(shí)別還不能更進(jìn)一步呢?部分因?yàn)轵?qū)動(dòng)該項(xiàng)技術(shù)的人工智能還有不小的改進(jìn)空間。另外,所需數(shù)據(jù)嚴(yán)重缺乏——即往往嘈雜環(huán)境下多種語(yǔ)言、口音和方言的人類(lèi)語(yǔ)音的音頻。
因此,亞馬遜、蘋(píng)果、微軟和百度紛紛著手在范圍內(nèi)收集海量的人類(lèi)語(yǔ)音數(shù)據(jù)。微軟在各地設(shè)立據(jù)點(diǎn),記錄志愿者在家庭環(huán)境中說(shuō)話的聲音。亞馬遜*都在將Alexa請(qǐng)求上傳到其龐大的數(shù)據(jù)庫(kù)。百度在中國(guó)忙于收集各種方言的語(yǔ)音。收集過(guò)后,他們會(huì)將那些數(shù)據(jù)用于教導(dǎo)他們的計(jì)算機(jī)如何分析、理解和響應(yīng)語(yǔ)音指令和請(qǐng)求。
對(duì)于這些科技巨頭而言,挑戰(zhàn)在于找到方法去捕捉自然真實(shí)的對(duì)話。負(fù)責(zé)領(lǐng)導(dǎo)百度在加州森尼維爾的人工智能實(shí)驗(yàn)室的亞當(dāng)·科茨(Adam Coates)指出,語(yǔ)音識(shí)別的準(zhǔn)確率即便有95%也不足夠。“我們的目標(biāo)是將錯(cuò)誤率壓低到1%以下。”他說(shuō),“做到了這一點(diǎn),你才能夠真正相信設(shè)備理解你說(shuō)的話。那將會(huì)是變革性的進(jìn)展。”
不久以前,語(yǔ)音識(shí)別還處于非常初期的發(fā)展階段。在2006年的一次演示中,微軟運(yùn)行于Windows的語(yǔ)音識(shí)別技術(shù)的早期版本在眾多分析師和投資者面前竟然將“mom”(媽媽)轉(zhuǎn)錄成“aunt”(阿姨)。蘋(píng)果5年前推出Siri時(shí),該個(gè)人助手頻頻出錯(cuò),備受嘲笑。它經(jīng)常給出錯(cuò)誤的結(jié)果,又或者不能夠準(zhǔn)確聽(tīng)清問(wèn)題。被問(wèn)到吉莉安·安德森(Gillian Anderson)是不是英國(guó)人時(shí),Siri卻展示了一系列的餐館。如今,微軟稱(chēng)其語(yǔ)音引擎的準(zhǔn)確率已經(jīng)不亞于專(zhuān)業(yè)轉(zhuǎn)錄員,Siri正贏得一定的尊重,Alexa也讓人們看到了未來(lái)的希望。
神經(jīng)網(wǎng)絡(luò)
這一進(jìn)展很多程度上要?dú)w功于神奇的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種基于人腦架構(gòu)的人工智能形式,它不需要明確的程序化就能學(xué)習(xí),通常只需要大量廣泛多樣的數(shù)據(jù)。語(yǔ)音識(shí)別引擎消化的語(yǔ)音數(shù)據(jù)越多,它就越能夠理解不同的語(yǔ)音,就越接近于實(shí)現(xiàn)在多種情景中用多種語(yǔ)言進(jìn)行自然對(duì)話的終目標(biāo)。
因此,各大巨頭在爭(zhēng)奪大批的語(yǔ)音資源。“我們給系統(tǒng)注入的數(shù)據(jù)越多,它的表現(xiàn)就會(huì)越好。”百度科學(xué)家吳恩達(dá)(Andrew Ng)表示,“正因?yàn)榇?,收集語(yǔ)音成為了一種資本密集型的活動(dòng);有這么多數(shù)據(jù)的機(jī)構(gòu)組織并不多。”
當(dāng)業(yè)界在1990年代開(kāi)始積極發(fā)展語(yǔ)音識(shí)別技術(shù)時(shí),微軟等公司主要依靠來(lái)自研究機(jī)構(gòu)公開(kāi)的可用數(shù)據(jù),比如語(yǔ)言學(xué)數(shù)據(jù)聯(lián)盟。該語(yǔ)音與文本數(shù)據(jù)庫(kù)于1992年創(chuàng)立于賓夕法尼亞大學(xué),擁有美國(guó)政府的支持。后來(lái),科技公司們紛紛開(kāi)始收集自有的語(yǔ)音數(shù)據(jù),部分公司通過(guò)給志愿者錄音進(jìn)行收集。如今,隨著聲控軟件日益普及,它們從自有的產(chǎn)品與服務(wù)收集大量的數(shù)據(jù)。
當(dāng)你叫你的手機(jī)去搜索內(nèi)容,播放歌曲,又或者提供導(dǎo)航路線時(shí),你很有可能會(huì)被公司錄音。(蘋(píng)果、谷歌、微軟和亞馬遜均強(qiáng)調(diào)有匿名化用戶(hù)數(shù)據(jù)來(lái)保護(hù)個(gè)人隱私。)在你問(wèn)Alexa天氣怎么樣或者體育比賽的比分時(shí),設(shè)備會(huì)利用你的語(yǔ)音請(qǐng)求來(lái)改進(jìn)其對(duì)自然語(yǔ)言的理解(盡管“她”不會(huì)偷聽(tīng)你的對(duì)話,除非你有說(shuō)她的名字)。Alexa項(xiàng)目科學(xué)家尼克·斯特羅姆(Nikko Strom)指出,“通過(guò)我們的設(shè)計(jì),Alexa會(huì)隨著你的使用的增多而變得越來(lái)越智能。”
兩大挑戰(zhàn)
語(yǔ)音識(shí)別的一大挑戰(zhàn)在于,使得該項(xiàng)技術(shù)熟悉各種各樣的語(yǔ)言、口音和方言。也許,這一點(diǎn)在中國(guó)尤為重要。為了采集全國(guó)各地的方言語(yǔ)音,百度今年在春節(jié)期間展開(kāi)了一項(xiàng)營(yíng)銷(xiāo)推廣行動(dòng)。該搜索巨頭稱(chēng)該舉是“方言對(duì)話項(xiàng)目”,并向人們承諾,如果他們參與進(jìn)來(lái),他們就能幫助人人都能用自己的方言跟百度對(duì)話的未來(lái)。在兩周的時(shí)間里,該公司錄得超過(guò)1000個(gè)小時(shí)的語(yǔ)音來(lái)接入它的計(jì)算機(jī)。很多人之所以愿意無(wú)償參與進(jìn)來(lái),是因?yàn)樗麄優(yōu)樽约杭亦l(xiāng)的方言感到驕傲。四川的一位高中教師對(duì)于該項(xiàng)目感到非常興奮,因而他號(hào)召全班學(xué)生錄制了超過(guò)1000首用四川話朗讀的古詩(shī)語(yǔ)音。
另一挑戰(zhàn)是:教導(dǎo)語(yǔ)音識(shí)別技術(shù)理解嘈雜背景下(比如在酒吧和在體育場(chǎng))傳來(lái)的指令。微軟部署了一款名為Voice Studio的Xbox應(yīng)用來(lái)收集用戶(hù)在進(jìn)行射擊游戲或者看電影時(shí)的對(duì)話聲。該公司為參與者提供包括積分和游戲裝備在內(nèi)的各種獎(jiǎng)品,吸引了數(shù)百位愿意貢獻(xiàn)自己玩游戲時(shí)的聊天聲音的用戶(hù)。該項(xiàng)目在巴西尤其奏效,微軟在當(dāng)?shù)氐淖庸驹赬box主頁(yè)面上大力推廣Voice Studio應(yīng)用。那些數(shù)據(jù)用來(lái)打造Cortana的巴西葡萄牙語(yǔ)版本。該版本于今年早些時(shí)候推出。
各家公司也在針對(duì)特定的情境設(shè)計(jì)語(yǔ)音識(shí)別系統(tǒng)。微軟一直在測(cè)試能夠回答機(jī)場(chǎng)旅客的請(qǐng)求的技術(shù),它希望其技術(shù)能夠不受機(jī)場(chǎng)持續(xù)不斷的航班通知聲音的干擾。該公司的技術(shù)目前還被應(yīng)用于麥當(dāng)勞外賣(mài)車(chē)道的自動(dòng)訂餐系統(tǒng)。經(jīng)過(guò)訓(xùn)練,它能夠做到不受諸如孩子尖叫聲的各類(lèi)雜音的感染,因而能夠準(zhǔn)確理解復(fù)雜的訂單指令,甚至能夠分辨出用戶(hù)想要的調(diào)味品。亞馬遜則在汽車(chē)中進(jìn)行測(cè)試,它希望Alexa能夠克服道路噪聲和敞開(kāi)車(chē)窗帶來(lái)的挑戰(zhàn)。
少用數(shù)據(jù)
在從世界各地收集數(shù)據(jù)的同時(shí),科技巨頭們也在想方設(shè)法地用更少的數(shù)據(jù)來(lái)改進(jìn)語(yǔ)音識(shí)別技術(shù)。在微軟研究語(yǔ)音識(shí)別逾20年的語(yǔ)音科學(xué)家黃學(xué)東指出,公司在麥當(dāng)勞測(cè)試的技術(shù)比其它使用多得多的數(shù)據(jù)的語(yǔ)音識(shí)別系統(tǒng)要更加。“即便使用的數(shù)據(jù)不是多的,你也總能夠取得突破。”
谷歌總的來(lái)說(shuō)也奉行少即是多的理念,它在部署零碎策略來(lái)利用難以理解的聲音單元構(gòu)建詞語(yǔ)和短語(yǔ)。該公司對(duì)于其語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)是,只需一個(gè)變化就能解決多個(gè)問(wèn)題。對(duì)于所積累的數(shù)據(jù)集,谷歌會(huì)將數(shù)萬(wàn)個(gè)通常只有兩到五秒長(zhǎng)的音頻片段連在一塊。谷歌的研究人員弗朗索瓦茲· 比倫發(fā)斯(Fran?oise Beaufays)指出,這一過(guò)程需要較少的運(yùn)算能力,更加容易測(cè)試和調(diào)整。百度方面則在研究更加的算法來(lái)簡(jiǎn)化語(yǔ)言的學(xué)習(xí)。
問(wèn)問(wèn)像吳恩達(dá)這樣的研究人員,什么時(shí)候才能夠跟數(shù)字助手進(jìn)行自然的對(duì)話。沒(méi)有人知道答案。神經(jīng)網(wǎng)絡(luò)仍舊非常神秘,即便對(duì)于那些專(zhuān)家而言也是如此。研究人員目前的工作很多都是反復(fù)試驗(yàn);在一處地方進(jìn)行一項(xiàng)改動(dòng)后,你永遠(yuǎn)都無(wú)法確定其它地方會(huì)產(chǎn)生什么樣的變化。鑒于當(dāng)下的技術(shù)和方法,這一過(guò)程很可能要持續(xù)很長(zhǎng)一段時(shí)間。不過(guò),吳恩達(dá)、黃學(xué)東、比倫發(fā)斯以及其他的科學(xué)家認(rèn)為,你很難預(yù)料什么時(shí)候會(huì)出現(xiàn)那種大大加速研究進(jìn)程,讓Alexa和Siri變成真正的交談?wù)叩耐黄啤?/div>
關(guān)鍵詞
語(yǔ)音識(shí)別生物識(shí)別智能家居
版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明“來(lái)源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。