【
中國安防展覽網(wǎng) 企業(yè)關(guān)注】語音識別并不是一項新興的技術(shù),但是隨著人工智能以及智能家居等行業(yè)的發(fā)展,語音識別被認為是核心應(yīng)用之一,或?qū)⒋笳股硎帧鴥?nèi)外科技巨頭對云隱是被行業(yè)的關(guān)注也越來越明顯。下面就讓我們來盤點下,目前國內(nèi)外都有哪些企業(yè)在布局關(guān)注語音識別產(chǎn)業(yè),它們將如何把握?
從國內(nèi)外語音識別行業(yè)對比 看未來發(fā)展趨勢
國外語音識別行業(yè)收購盤點和技術(shù)分析
傳統(tǒng)語音識別行業(yè)貴族Nuance逐漸沒落
任何時候提到語音識別,都不能避過Nuance這家公司,這家公司曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖,世界上有超過80%的語音識別都用過Nuance識別引擎技術(shù),其語音產(chǎn)品可以支持超過50種語言,在擁有超過20億用戶,幾乎壟斷了金融和電信行業(yè)。就算現(xiàn)在,仍舊是瘦死的駱駝比馬大,Nuance依舊是大的語音技術(shù)公司,掌握著多的語音技術(shù)。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和銀行的自動呼叫中心,剛開始都是采用他們的語音識別引擎技術(shù)。Nuance已經(jīng)登陸了納斯達克,三星、蘋果和百度都和它傳過緋聞,傳言多次收購,但是全都無疾而終。
事實上,Nuance有點過于自大了,語音技術(shù)即便冠絕,但是在具體應(yīng)用上,差距就沒有那么大了。語音識別技術(shù)并非高不可攀,實際上一款用戶體驗較好的語音識別系統(tǒng),很大程度上依靠數(shù)據(jù)和經(jīng)驗,和算法什么的并沒有那么重要。聰明人自然很多,所以巨頭們只需考慮挖到專業(yè)人士或者收購初創(chuàng)公司,自主研發(fā)出不遜于Nuance的語音識別技術(shù)也不是太難的事情,又何必花費巨資看Nuance臉色呢。
蘋果收購Siri、Novauris Technologies、VocallQ和Emotient
蘋果的Siri已經(jīng)鼎鼎大名了,也算世界上語音識別的執(zhí)牛耳者。Siri并不是蘋果自己研發(fā)的技術(shù),而是2010年蘋果收購SiriInc.公司的產(chǎn)品,2011年蘋果將該技術(shù)融入到iPhone4S中并發(fā)布了Siri語音助理。SiriInc.這家公司成立于2007年,原本核心技術(shù)是CALO人工智能項目。當然Siri剛開始發(fā)布的時候語音識別的體驗還很差,眾多果粉也是四處吐槽。因此2013年蘋果又收購了語音識別公司NovaurisTechnologies。Novauris是一種可識別整個短語的語音識別技術(shù),這種技術(shù)并非簡單識別單個詞句,而是試圖利用超過2.45億個短語的識別輔助理解上下文,當然這是很有難度的一件事情。不管怎樣,這次收購也讓蘋果進一步完善了Siri的功能。
但是這還是不夠,因此2015年蘋果又收購了英國語音技術(shù)初創(chuàng)公司VocalIQ。VocalIQ開發(fā)的人工智能軟件,能夠幫助計算機與用戶進行更為自然的對話。VocalIQ使用機器學(xué)習(xí)(machinelearning)開發(fā)虛擬助手,將語音處理和機器學(xué)習(xí)技術(shù)整合到可穿戴設(shè)備、家庭聯(lián)網(wǎng)設(shè)備當中的同時,這家公司還特別關(guān)注車載應(yīng)用的開發(fā)。這次收購也證實了蘋果將來邁入汽車領(lǐng)域的決心。Siri應(yīng)該是通用語音識別領(lǐng)域用戶體驗當前較好的產(chǎn)品,特別是在兒童語音識別領(lǐng)域,這也得益于蘋果極易上手的特性吸引了眾多小朋友,也包括筆者家里的小朋友。
當然,Siri還是距離我們的實際應(yīng)用需求還差很遠,因此蘋果近又收購了美國圣地牙哥AI技術(shù)公司Emotient,接收其臉部表情分析與情緒辨別技術(shù)。據(jù)悉,Emotient開發(fā)的情緒引擎可讀取人們的面部表情并且預(yù)測其情緒狀態(tài)。
這個領(lǐng)域當然少不了大名鼎鼎的谷歌,但是谷歌動作稍微遲緩,2011年谷歌才出手收購語音通信公司SayNow和語音合成公司PhoneticArts。SayNow可以把語音通信、點對點對話、以及群組通話和Facebook、Twitter、MySpace、Android和iPhone等等應(yīng)用等整合在一起,而PhoneticArts可以把錄制的語音對話轉(zhuǎn)化成語音庫,然后把這些聲音結(jié)合到一起,從而生成聽上去非常逼真的人聲對話。
當然,這才只是開始,實際上語音技術(shù)遠沒那么簡單,因此2013年谷歌以超過3000萬美元收購了新聞閱讀應(yīng)用開發(fā)商Wavii。Wavii擅長“自然語言處理”技術(shù),可以通過掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞,并直接給出一句話摘要及鏈接。但是谷歌忙活了這么久,似乎還沒真正介入語音識別行業(yè),因此谷歌還收購了SRTechGroup的多項語音識別相關(guān)的,這些技術(shù)和谷歌也很快應(yīng)用到市場,比如YouTube已提供標題自動語音轉(zhuǎn)錄支持,GoogleGlass使用了語音控制技術(shù),Android也整合了語音識別技術(shù)等等,GoogleNow更是擁有了完整的語音識別引擎。但是相比蘋果的戰(zhàn)略布局,谷歌總喜歡玩花樣,似乎戰(zhàn)略考慮上欠缺一些。谷歌似乎也意識到了這個問題,因此2015年入資了中國的出門問問,這是一款以語音導(dǎo)航為主的公司,近也發(fā)布了智能手表,出門問問也有國內(nèi)聲學(xué)器件廠商歌爾聲學(xué)的背景,谷歌的這個動作也被認為是谷歌重返中國的策略。
亞馬遜收購Yap,Evi,IvonaSoftware
Amazon放在此處凸顯重要,這可是一家有可能把語音識別落地到消費市場的巨頭。Amazon的語音技術(shù)起步于2011年收購語音識別公司Yap,Yap成立于2006年,主要提供語音轉(zhuǎn)換文本的服務(wù)。2012年Amazon又收購了語音技術(shù)公司Evi,繼續(xù)加強語音識別在商品搜索方面的應(yīng)用,不得不提的是,Evi這家公司也曾經(jīng)應(yīng)用過Nuance的語音識別技術(shù)。2013年,Amazon繼續(xù)收購語音技術(shù)公司Ivona Software,Ivona是一家波蘭公司,主要做文本語音轉(zhuǎn)換,其技術(shù)已被應(yīng)用在Kindle Fire的文本至語音轉(zhuǎn)換功能、語音命令和Exploreby Touch應(yīng)用之中,其近推出的智能音箱Echo也是利用了這項技術(shù)。
Facebook也是巨頭了,任何視頻平臺無論如何都不能忽略了聲學(xué)技術(shù),因此Facebook在2013年收購了語音識別公司Mobile Technologies。Mobile Technologies是一家創(chuàng)業(yè)型的小公司,其產(chǎn)品Jibbigo允許用戶在25種語言中進行選擇,使用其中一種語言進行語音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時根據(jù)選擇的語言大聲朗讀出來。這一技術(shù)使得Jibbigo成為出國旅游的常用工具,很好地代替了常用語手冊。當然這遠不能滿足Facebook的野心,F(xiàn)acebook繼續(xù)收購了語音識別公司W(wǎng)it.ai。Wit.ai是一家語音交互解決方案服務(wù)商,允許用戶直接通過語音來控制移動應(yīng)用程序、穿戴設(shè)備和機器人,以及幾乎任何智能設(shè)備。簡單來說,就是“能把語言轉(zhuǎn)化為可操作的數(shù)據(jù)”。當然Facebook的想法也很簡單,將這種技術(shù)應(yīng)用到定向廣告之中,這種巨頭更希望將技術(shù)和自己的商業(yè)模式緊密結(jié)合在一起。
微軟戰(zhàn)略發(fā)展Skype、Cortana和微軟小冰
微軟這個總是以發(fā)論文為自豪的公司,技術(shù)自然很牛,也給國內(nèi)這個行業(yè)培養(yǎng)了很多人才。例如SkypeTranslator,起初是為英語和西班牙語用戶提供實時翻譯服務(wù),后來開始支持漢語和意大利語兩種語言。Skype計劃在所有相關(guān)的平臺上翻譯盡可能多的語言,從而帶來與電影《星際迷航》中一樣的智能翻譯工具,這個宏偉目標也只有這種不差錢的土豪才能說出來,萬一實現(xiàn)了呢?
當然微軟吸引眼球的并非Skype,而是微軟的Cortana和微軟小冰。Cortana是一款個人用戶助理,是微軟在機器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試。Cortana可以記錄用戶的行為和使用習(xí)慣,利用云計算、搜索引擎和“非結(jié)構(gòu)化數(shù)據(jù)”分析,讀取和學(xué)習(xí)包括手機中的文本文件、電子郵件、圖片、視頻等數(shù)據(jù),來理解用戶的語義和語境,從而實現(xiàn)人機交互。而微軟小冰是微軟亞洲研究院2014年發(fā)布的人工智能機器人,微軟小冰除了智能對話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點評等實用技能,實際上,這個被微軟亞洲研究院定位于18歲少女的小冰,被訓(xùn)練的更具有女流氓氣質(zhì)。
國外其他行業(yè)的巨頭也加入收購
另外還有一些巨頭也相繼進入語音這個行業(yè),例如2013年英特爾收購了西班牙的語音識別技術(shù)公司Indisys,同年雅虎也收購了自然語言處理技術(shù)初創(chuàng)公司SkyPhrase。而美國大的有線電視公司Comcast也開始推出自己的語音識別交互系統(tǒng)。Comcast希望利用語音識別技術(shù)讓用戶通過語音就可以更自由控制電視,并完成一些遙控器無法完成的事情,例如用戶可以對著電視說出一些關(guān)鍵詞,就可以從他們的DVR中找出相關(guān)的視頻,而且這也將支持Comcast直播的電視節(jié)目。
國內(nèi)語音識別行業(yè)的發(fā)展和技術(shù)分析
科大訊飛:中科院典范,站穩(wěn)教育市場
科大訊飛是目前國內(nèi)有影響力的語音技術(shù)公司,成立于1999年底,依靠中科大的語音處理技術(shù)以及國家的大力扶持,很快就走上了正軌。在2008年的時候就已經(jīng)掛牌上市,目前市值接近500億,根據(jù)2014年語音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調(diào)查顯示,科大訊飛占據(jù)了超過60%的市場份額,是語音技術(shù)的。一提到科大訊飛,可能大家想到的都是語音識別很牛,但其實它大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經(jīng)過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點,所有的學(xué)校及家長都愿意為其買單。這種局面很難打破,所以其霸主的地位也很難撼動。
百度語音:有錢任性,技術(shù)實力很強大
百度語音這個怎么描述才好呢,百度語音其實很早就被確立為戰(zhàn)略方向,2010年與中科院聲學(xué)所合作研發(fā)語音識別技術(shù),但是市場發(fā)展相對緩慢。百度幾乎成為了很多歸國人員刷簡歷的跳板,包括一些高層,其簡歷表上都被各大巨頭公司排滿了。但這對公司來說,有個卵用。因此直到2014年,百度重新梳理了戰(zhàn)略,終于找對了人,請來了人工智能領(lǐng)域的*級大師吳恩達,正式組建了語音團隊,專門研究語音相關(guān)技術(shù),由于有百度強大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術(shù)實力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗積累的科大訊飛相提并論。
捷通和信利:也是老牌,發(fā)展卻很坎坷
同樣也是在2000年左右,還有兩家公司也相繼成立,這就是捷通華聲和中科信利。捷通華聲憑借的是清華技術(shù),成立初期力邀中科院聲學(xué)所的呂士楠老先生加入,奠定了語音合成的基礎(chǔ)。中科信利則完全依托于中科院聲學(xué)所,其成立初期技術(shù)實力極為雄厚,不僅為國內(nèi)語音識別行業(yè)培養(yǎng)了大量人才,而且也在行業(yè)領(lǐng)域,特別是軍工領(lǐng)域發(fā)揮著至關(guān)重要的作用。中科院聲學(xué)所培養(yǎng)的這些人才,對于國內(nèi)語音識別行業(yè)的發(fā)展極為重要,姑且稱之為聲學(xué)系,但是相對于市場來說,這兩家公司已經(jīng)落后了科大訊飛一大段距離。中科信利由于還有行業(yè)市場背景,目前基本上不再參與市場運作,而捷通華聲近也因為南大電子“嬌嬌”機器人的造假事件被推上了風口浪尖,著實是一個非常負面的影響。聲學(xué)相關(guān)類公司不同于其他行業(yè),技術(shù)才是其發(fā)展壯大的根基。
在2009年左右,DNN被用于語音識別領(lǐng)域,語音識別率得到大幅提升,識別率突破90%,達到商用標準,這極大的推動了語音識別領(lǐng)域的發(fā)展,這幾年內(nèi)又先后成立許多語音識別相關(guān)的創(chuàng)業(yè)公司。成立較早一點的是思必馳,2007年成立,創(chuàng)始人大部分來源于劍橋團隊,其技術(shù)有一定的國外基礎(chǔ),當時公司主要側(cè)重于語音評測,也就是教育,但經(jīng)過多年的發(fā)展,雖然占有了一些市場,但在科大訊飛把持著考試制高點的情況下,也很難得到突破。于是在2014年的時候,思必馳痛下決心將負責教育行業(yè)的部門剝離,以9000萬賣給了網(wǎng)龍,自己則把精力收縮專注智能硬件和移動互聯(lián)網(wǎng),近更是集中精力聚焦車載語音助手,推出了“蘿卜”,可市場反響非常一般。雖然思必馳近獲得了阿里戰(zhàn)略注資,但是筆者訪問其的時候,卻發(fā)現(xiàn)放在首要位置的竟是小智音箱,不知道這個賣了沒幾臺的音箱能帶給思必馳什么?
云知聲:融資迅猛,就是不見落地
借著2011年蘋果Siri的宣傳勢頭,2012年云知聲成立。云知聲團隊主要來源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業(yè),與科大訊飛可以說是師兄弟。但語音識別技術(shù)則更多的源于中科院自動化所,其語音識別技術(shù)有一定的獨到之處,有一小段時期內(nèi)語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達到3億,主要瞄準智能家居市場。但至今已經(jīng)成立了3年多,聽到的更多是宣傳,市場發(fā)展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實際應(yīng)用,估計目前還處在燒錢階段。但是這樣個燒法總是危險,科大訊飛已經(jīng)上市暫且不論,思必馳和出門問問也懷抱巨資試圖落地,而且語音識別行業(yè)這個玩法,國內(nèi)巨頭必然也會學(xué)*外巨頭的思路,顯然收購初創(chuàng)企業(yè)擁有更多話語權(quán),相對更為實在。
出門問問:歌爾和谷歌入資,主打移動
出門問問也是成立于2012年,其CEO曾經(jīng)在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創(chuàng)辦了上海羽扇智信息科技有限公司,并立志打造下一代移動語音搜索產(chǎn)品——“出門問問”。出門問問的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內(nèi)置地圖的情況下,為啥還要下載這個軟件,顯然有時候比直接查找地圖還要麻煩。出門問問同樣也具有較強的融資能力,2015年更是拿到了Google的C輪融資,融資額累計已經(jīng)7500萬美元。出門問問主要瞄準可穿戴市場,近自己也推出了智能手表等產(chǎn)品,但也是雷聲大,雨點小,沒見得其智能手表的銷量如何。
再數(shù)數(shù)其他的一些業(yè)界公司
語音識別的門檻并不高,聲學(xué)在線很多文章里提到過,因此國內(nèi)各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應(yīng)用于搜狗輸入法,效果也還可以。騰訊當然不會落后,微信也建立了自己語音識別引擎,用于將語音轉(zhuǎn)換為文字,但這個做的還是有點差距,想必大家也都體驗過。阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些大公司更多的是自研自用,基本上技術(shù)上泛善可陳,業(yè)界也沒有什么影響力。
國內(nèi)外巨頭布局語音識別的策略差異
上面歷數(shù)了國內(nèi)外各個巨頭陸續(xù)建立語音識別引擎的過程和優(yōu)勢技術(shù),有一點我們還是要特別留意一下:國外巨頭欲進入語音識別行業(yè),首先想到的就是收購初創(chuàng)的團隊,這些團隊大都也在5-20人之間,掌握著一定的優(yōu)勢技術(shù)。顯然收購一家初創(chuàng)團隊很難滿足其戰(zhàn)略發(fā)展,因此一旦技術(shù)與公司業(yè)務(wù)融合以后,這些巨頭都會頻繁出手再次收購以補齊短板,逐漸建立起適合自己公司發(fā)展的語音識別優(yōu)勢。
對于技術(shù)相對重要而且技術(shù)點又比較分散的科技型公司,國外巨頭一般不會采取收購商業(yè)模式公司的那種大手筆來收購,這也是導(dǎo)致Nuance終無人問津的重要因素。想想也是,巨頭自然不會用別人家引擎以免將來掣肘,何況收購技術(shù)類的大型公司無疑也是給自己找了個麻煩。
國內(nèi)的語音識別發(fā)展脈路沒有那么清晰,剛開始各個巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來醒悟過來,紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒有啥實質(zhì)性進展。這一點從他們試圖低薪聘請語音識別相關(guān)人才的策略上,也可知道其戰(zhàn)略上沒什么可發(fā)展的。語音識別行業(yè)屬于聲學(xué)和計算機的交叉技術(shù),本來培養(yǎng)的人才就很稀缺,而從上述分析可以看出,國內(nèi)外的技術(shù)源頭實際上大概集中,無非就是業(yè)界相關(guān)的研究機構(gòu)和擁有研發(fā)實力的巨頭公司。
語音識別行業(yè)平衡之下的技術(shù)發(fā)展趨勢
語音識別行業(yè)現(xiàn)在似乎維持著大的平衡,因為國內(nèi)外各家的引擎識別率都基本在同一個水平線上,差不多達到了當前語音識別技術(shù)的極限,彼此之間差距不是那么明顯。本來蘋果發(fā)布Siri被寄予厚望,這是將語音技術(shù)進行大眾推廣的良機,但是Siri的表現(xiàn)卻與預(yù)期相差甚遠。即便國內(nèi)非?;馃岬奈⑿?,其中又有幾人使用,甚至知道其中的語音識別技術(shù)呢?倒是同樣源自聲學(xué)技術(shù)的微信搖一搖功能非?;馃?。
這個技術(shù)相對語音識別來說,簡直就是小巫見大巫,但是應(yīng)用場景契合的很好。因此,傳統(tǒng)的語音識別行業(yè)公司都在謀求轉(zhuǎn)型發(fā)展,比如Nuance、科大訊飛等,轉(zhuǎn)型失敗或者技術(shù)儲備不足的,或許將來就是早倒下的,而且這幾年也有不少家類似公司倒下了。
未來的語音識別市場,預(yù)計將會有越來越多的公司參與,以后語音識別的性能可能更多的體現(xiàn)在前端技術(shù)和語義理解上。機器要與人自然交流,當然就不能重復(fù)手機這套語音對話規(guī)則,必然就要考慮到用戶說話的環(huán)境、周圍環(huán)境的噪音、用戶發(fā)音不準或者方言等等諸多因素,這就要求前端技術(shù)更加的模擬人體結(jié)構(gòu),仿真出機器人聽覺系統(tǒng),以實現(xiàn)解放雙手自由對話的目的。
另外,機器能不能與人自由的交流,不僅需要機器能將語音轉(zhuǎn)換成文字,更需要機器從文字中理解說話人的含義,這一方面是基于大樣本的機器學(xué)習(xí)需要更進一步,另外一方面也需要小樣本的自主學(xué)習(xí),沒有舉一反三的功能,似乎語義理解也無法自主適應(yīng)陌生的環(huán)境。這兩個新興的技術(shù)領(lǐng)域,或許又會孕育出幾家獨角獸企業(yè),將真正推動語音從識別走向交互的自然體驗,從而向著人工智能再次邁進一步。