【中國安防展覽網(wǎng) 企業(yè)關(guān)注】自亞馬遜Echo讓科技界了解到人工智能還能以音箱的形式存在于客廳,成為家庭智能網(wǎng)關(guān)的中心;今夏蘋果HomePod的推出,更是讓智能音箱在業(yè)內(nèi)掀起了一陣小高潮。
聲紋識別是阿里智能音箱“殺手锏”嗎?
不出所料,阿里還是發(fā)布了智能音箱。從亞馬遜三年前的無心插柳到今天阿里的入局,智能音箱市場的爆發(fā)讓人始料未及,但這的確發(fā)生了。
Echo已累計銷售近2000萬臺,谷歌、微軟、蘋果隨之跟進,之后的一段時間里,國內(nèi)的軟件廠商、硬件產(chǎn)商、內(nèi)容廠商爭相進入,好不熱鬧。
而直到本月初,阿里才正式發(fā)布智能音箱天貓精靈X1,既出乎意料又在情理之中,使得語音入口的爭奪戰(zhàn)因為阿里的入局變得更加有趣。那么,阿里的智能音箱到底帶來了哪些有別于其他同類產(chǎn)品的驚喜?
眼前一亮的“驚喜”
此前有媒體稱,為了這款智能音箱,阿里巴巴甚至將馬云投入上億美元的Pepper機器人項目中止,把人員隊伍拆分劃進人工智能實驗室。而花了這么大代價出來的產(chǎn)品好像似乎與Echo等音箱并無本質(zhì)上的差異,所含功能大致包括播音樂、叫外賣、查天氣、設鬧鐘、智能家電操控等。
根據(jù)天貓精靈對外宣傳的賣點,其中非常重要一點就是連Echo都不具備的聲紋識別功能。
阿里稱,通過聲紋識別技術(shù),音箱可以分辨家里的每一個人,并且根據(jù)每個人的喜好而設定推送不同的內(nèi)容,目前多可以識別6個人的身份;另外,用戶還可通過自己的聲音完成購物支付驗證環(huán)節(jié)。而Echo在分辨人的身份上,還需要通過進一步操作來獲取用戶的個人信息。好奇的是,如此酷炫的功能為何亞馬遜至今都還沒用在Echo上。
據(jù)悉,亞馬遜很早就想應用這項技術(shù),但據(jù)亞馬遜員工介紹,從聲紋識別領域的硬件和軟件公司中得到的反饋看來,讓這些語音控制設備去識別不同用戶的聲音比想象中要艱難很多。
“由于設備需要去除噪音,回聲,混響,使得它難以對聽到的發(fā)聲者的身份進行識別。”Conexant語音部門副總裁Vineet Ganju說道。那么擁有聲紋識別的天貓精靈真的能撐起它所重點訴求的這個賣點嗎?我看懸。
聲紋識別功能為什么懸?
先從聲紋識別算法層面講,聲智科技創(chuàng)始人陳孝良博士此前在接受專訪時表示,聲紋識別還是一個比較窄的學科,應用也相對較少?,F(xiàn)在大部分研究都是有關(guān)動態(tài)實時檢測,動態(tài)檢測的方法自然要利用靜態(tài)檢測的各種原理方法,同時也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測是不是人的聲音,降噪和去混響是排除環(huán)境干擾。
VAD常用兩個方法,基于能量檢測和LTSD(Long-Term Spectral Divergence),當前用的較多是LTSD,另外特征提取方面還需要:動態(tài)時間規(guī)整(DTW)、矢量量化 (VQ)、支持向量機 (SVM),模型方面則需要隱馬爾可夫模型(HMM)和高斯混合模型 (GMM)。
從上面模型不難看出,聲紋識別還是一種基于數(shù)據(jù)驅(qū)動的模式識別問題,因為所有模式識別存在的問題聲紋都存在,而且聲紋識別還有一些不太好解決的物理和計算問題。
聲紋識別的性很好,但實際上現(xiàn)有的設備和技術(shù)仍然很難做出準確分辨,特別是人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說話人的環(huán)境下,聲紋特征也是很難提取和建模的。 現(xiàn)階段,遠場聲紋識別理論并不成熟,研究進展也不大。
陳孝良認為,深度學習帶給模式識別極大的提升,甚至還有開源的相關(guān)算法,但是聲紋識別的研究進展仍然不大,這仍然受制于聲紋的采集和特征的建立。
聲紋識別提供商SpeakIn資深科學家陳東鵬博士談到,從聲紋識別這一單項技術(shù)來講,容易受到真實環(huán)境下的各種影響,包括:噪音問題、多人說話、身體狀況、情緒影響等,現(xiàn)在確實很棘手。包括他們在內(nèi)的一些公司也在大力通過軟、硬件算法去優(yōu)化這些行業(yè)通用問題,在深度學習的加持下,整個行業(yè)的進步也比以往更快。陳博士補充到,聲紋識別只是一個環(huán)節(jié),效果判斷還需看產(chǎn)品本身和使用場景等因素。
在產(chǎn)品層面,剛剛發(fā)布“小雅”智能音箱的喜馬拉雅表達了他們的看法。喜馬拉雅副總裁李海波表示,對于聲紋識別的應用,公司內(nèi)部也攻關(guān)了很久,但無法做到完全準確,目前還只是實驗階段,效果一般。
在談及阿里天貓精靈時,他講到,遠場語音識別通常在三米到五米內(nèi)有效,降噪是在70dB左右,環(huán)境噪音和音響聲音大于這個標準就很難喚醒。而遠場聲紋識別在同等距離下就更加不穩(wěn)定,目前客廳、電視機、廚房、床頭是智能音箱的四個常用場景,而除了床頭外,其他三個常用場景實際距離通常情況均超過三米,所以阿里音箱聲紋識別的具體實用性還不可得知。
至于亞馬遜Echo為何至今還沒用這個功能,李海波認為該技術(shù)還不成熟,雖然很炫但風險很大。
另外,Sensory公司的CEO Todd Mozer也認為對Echo這樣的遠場語音設備來說,識別誰在說話是很困難的。隨著信號/噪聲比例提高,設備的表現(xiàn)隨之變差。
“降噪和從噪聲中分離語音的處理對于用戶身份的識別有非常大的影響,目前為止,市場上還沒有產(chǎn)品同時處理好用戶身份識別,遠場語音和噪聲處理。”Mozer說道。
再從遠場聲紋識別的實際應用情況來看,中科院自動化所、極限元資深智能語音算法專家劉斌談到了他的看法。劉博士表示,遠場語音識別受到噪聲、回聲、混響的干擾,無論是語音識別還是聲紋識別都很具有挑戰(zhàn)性。
目前遠場語音識別可靠的識別距離大約是3-5米;對于聲紋識別還要更難一些。因為語音識別的目的是理解語音信號中的言語內(nèi)容,言語內(nèi)容信息跟共振峰高度相關(guān),共振峰主要集中在低頻帶,語音信號低頻帶能量較高,受外部干擾相對較小,而說話人相關(guān)特征更多集中在高頻帶,語音高頻帶能量相對較低,更容易收到各種干擾的影響,因此遠距離聲紋識別更具挑戰(zhàn)。他隨即說到,因為每個人說話特征會隨著不同因素而變化,例如感冒時發(fā)音跟正常時肯定有所差異,所以近場聲紋識別還不敢保證特別成熟,遠場條件下肯定不太容易實用??傮w來說,對于大多數(shù)用戶,聲紋識別應用于智能音箱并不是剛需,從技術(shù)角度分析,聲紋識別尚不成熟。
那么,相比遠場語音識別來說,更加不成熟的遠場聲紋識別技術(shù)為何會被阿里急著應用到音箱中呢?
除了用此技術(shù)滿足用戶的個性化需求尋求差異化搶占市場外,劉博士還提到,介于阿里在電商領域的一些積累和優(yōu)勢,應用在電商身份認證也是阿里重點推進的方向。
阿里基于淘寶、天貓巨大的資源優(yōu)勢將購物場景引入音箱中聽上去無可厚非,但從之前亞馬遜將此場景應用在Echo上來看,用戶用其購物的使用頻率并不高,使用體驗也不理想。
科大訊飛執(zhí)行總裁胡郁此前接受采訪就說到,從整個市場來看,購物場景應用于音箱中還非常不成熟。真需求一定是用來滿足用戶剛需行為的功能,雖然Echo現(xiàn)在賣的很好,但調(diào)查后發(fā)現(xiàn),用戶真正用得比較多的工具不過是設個提醒、查個天氣等等。之前亞馬遜大力推的Echo語音購物功能并沒有做起來,當用戶用語音交互的形式去買東西時,會發(fā)現(xiàn)里面各個環(huán)節(jié)和場景挺麻煩,還不如直接在屏幕操作來的方便。
所以這也是很多企業(yè)一直在強調(diào)語音交互要和視覺呈現(xiàn)的原因,因為用戶在面對沒有視覺呈現(xiàn)的情況下,你獲得的信息不夠,這時候很難完成一些復雜的操作。所以有些功能和場景都是我們自己憑空想出來的,直到真正投入實際使用時卻發(fā)現(xiàn)用戶的思維與行為習慣并不是產(chǎn)品設計的那樣。
這里可以看出,如果用戶連使用電商功能的習慣都尚未養(yǎng)成,且聲紋技術(shù)問題重重,那么在電商中加入聲紋識別的訴求,目測也很難以經(jīng)得住市場考驗。
激進的產(chǎn)品策略
總體來看,阿里此次在智能音箱中加入聲紋識別的出發(fā)點很好:大打Echo和京東叮咚都沒有的功能營銷牌,在同質(zhì)化產(chǎn)品浪潮中,用前沿技術(shù)來提升競爭力。
但在整個技術(shù)和市場尚未成熟之際,阿里仍舊急切地嫁接聲紋識別,這個節(jié)點的產(chǎn)品策略,顯然有些激進。
原標題 阿里智能音箱力推的殺手锏功能 也許只是個偽賣點