avav588con,最近2019中文免费字幕在线观看,欧美一道本一区二区三区,九九热在线观看,经典好看免费AV

移動版

當前位置:智慧城市網(wǎng)資訊中心企業(yè)關注

新發(fā)產(chǎn)品更多
百度開放四項語音技術(shù) 智能語音交互將迎爆發(fā)期
2016年11月24日 14:55:00來源:搜狐科技點擊量:32609
導讀11月22日,百度語音開放平臺三活動在京舉辦,百度宣布將向公眾開放四個全新的語音技術(shù)接口。據(jù)百度公司科學家吳恩達介紹,這四項語音技術(shù)分別為情感合成、遠場方案、喚醒二期技術(shù)和長語音方案,
  【中國安防展覽網(wǎng) 企業(yè)關注】 11月22日,百度語音開放平臺三活動在京舉辦,百度宣布將向公眾開放四個全新的語音技術(shù)接口。據(jù)百度公司科學家吳恩達介紹,這四項語音技術(shù)分別為情感合成、遠場方案、喚醒二期技術(shù)和長語音方案,即日起這幾項旨在提升語音交互用戶體驗和推動語音交互落地普及的技術(shù),將免費開放給用戶和共享。


百度公司科學家吳恩達
  
  智能語音交互,前景與問題交織
  
  智能語音交互作為一個依仗新興技術(shù)而誕生發(fā)展的行業(yè),不僅有著充足的發(fā)展?jié)摿?,更隨著近年相關技術(shù)的快速迭代迎來了爆發(fā)期。
  
  中國工信部的報告指出,2016年智能語音產(chǎn)業(yè)規(guī)模為82.3億美元,近五年復合增長率高達35.1%,而根據(jù)ResearchandMarkets發(fā)布的調(diào)查數(shù)據(jù)顯示,2020年智能語音市場規(guī)模預計將達到191.7億美元。因此對于科技巨頭來說,這一領域已經(jīng)成為兵家必爭之地。
  
  事實上國內(nèi)外諸多科技巨頭近年來都已意識到了語音交互行業(yè)的發(fā)展?jié)摿?,并紛紛在這一領域大展拳腳。亞馬遜旗下家庭智能語音交互產(chǎn)品AmazonEcho就幫助其占據(jù)了智能家居語音交互領域的半壁江山,蘋果的Sir更以問答交互形式開啟了語音交互新世界的大門,除此之外,微軟、谷歌、Facebook、百度、訊飛等國內(nèi)外巨頭都早已在這一領域爭相競逐。
  
  但在巨頭紛紛布局的今天,智能語音行業(yè)仍然存在不少問題。語音交互產(chǎn)品在識別快速話語時,往往或難以識別或頻頻出錯,而這與語音識別技術(shù)的不到位有著直接關系。此外,語音交互助手目前的應用場景仍然談不上寬泛,當前一些已知的應用場景不要說智能化,甚至給人一種生搬硬造應用場景的感覺。
  
  事實上,不同于移動互聯(lián)網(wǎng)技術(shù)的全面開花,當前的智能語音交互行業(yè)很大程度上都是各家企業(yè)在閉門造車,行業(yè)環(huán)境不夠開放是大的問題。技術(shù)上的缺乏交流制約著行業(yè)的進一步提升。而本次百度開放關鍵性技術(shù)則對改善上述問題明顯有著重要意義,通過多項關鍵技術(shù)的開源共享,行業(yè)死水將被盤活,當前行業(yè)因技術(shù)障礙存在的問題,比如語音識別距離短,語音喚醒率不盡如人意等勢必將得到改善。
  
  百度的四項技術(shù),應用與指導意義
  
  本次百度宣布開放共享的情感合成、遠場方案、喚醒二期技術(shù)和長語音方案這四項技術(shù),實質(zhì)上包含的是語音交互領域的合成,識別,喚醒和理解這四大基礎板塊。
  
  語音合成技術(shù)歷來給用戶的印象或許就是機械,刻板的電子聲,而這種不自然的聲音也在一定程度上影響了用戶群體對智能語音產(chǎn)品的接受程度。而百度的情感合成技術(shù)通過百小時級別以上的語音音控大數(shù)據(jù)采集和*的人類發(fā)言韻律停頓預測技術(shù)處理后,電子聲變得更加接近真人聲音,一個典型的例子是百度今年早些時候曾利用此技術(shù),復原已逝明星張國榮的聲音。
  
  而遠場方案則對解決智能語音交互技術(shù)的應用場景不夠?qū)挿簡栴}有重要意義,這項技術(shù)得到分享之后,可以利用這一接口,使語音識別距離增加到3到5米,同時擁有93%以上的語音識別率,這將為語音技術(shù)帶來遠比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機。
  
  作為業(yè)界公認的智能語音交互的基礎組成技術(shù),所謂喚醒可以簡單的視為給智能語音產(chǎn)品加上了一雙“耳朵”,有了這一能力,產(chǎn)品才能聽到用戶的呼喚并響應操作。百度語音喚醒技術(shù)則有以下幾個特點:支持用戶自定義喚醒詞,不僅滿足了用戶的個性化需求,在與系統(tǒng)指令喚醒詞相結(jié)合之后還提升了產(chǎn)品性能,比如可同時下達拍照和照明的指令;加入雙層解號器,提高了喚醒準確率,目前百度語音喚醒準確率高達95%,誤報次數(shù)被控制在24小時一次以內(nèi);在喚醒功耗方面,百度語音喚醒的功耗則是國內(nèi)很多競品的三分之一。
  
  當前市場上的主流語音識別應用,其絕大部分都是短語音識別。比如搜索使用的是關鍵詞,地圖語音輸入的是地址,語音助手輸入的是指令,輸入法使用語音看似是長語音,實際上長支持不超過60秒。因此,長語音識別技術(shù)再次拓寬了智能語音交互的應用場景,一個簡單的例子就是語音輸入法不再受時間限制,用戶可以用口述“寫文章”,“寫日記”。而長語音使用環(huán)境下,語音識別的準確率既是重點,也是難點,百度長語音技術(shù)則從多個方面實現(xiàn)了突破:使用了LSTM對語音進行噪聲進行建模,切分準確率超過99%;生成模型使用了說話人自適應,保證了每個人說話時間越長識別效果就會越好;還實現(xiàn)了對識別結(jié)果的智能糾錯,從結(jié)果層面保證了識別準確率。
  
  不難看出,百度開放的這四項全新技術(shù)對于當前智能語音交互領域技術(shù)的推進、落地和產(chǎn)品的優(yōu)化有著重要作用。事實上,這些技術(shù)并不僅僅存在于理論上或?qū)嶒炇抑?,百度已?jīng)在多個實際場景中成功運用了這些技術(shù),與包括聯(lián)想、中興、長虹、康佳、SONY、特斯拉、途勝、惠普、艾米通訊等手機、家居、汽車、服務行業(yè)的眾多企業(yè)均展開了合作,新興技術(shù)的成功落地應用對整個語音交互行業(yè)走下云端普惠C端有著一定的指導作用。
  
  新一輪變革在即,產(chǎn)業(yè)化時代來臨
  
  到目前為止,百度語音開放平臺已經(jīng)交出了一份令人滿意的答卷,平臺數(shù)量已超過14萬,每天識別的在線請求數(shù)在1億以上,合成的在線請求數(shù)在2億以上,百度語音搜索的整體用戶量在2015年增長超過3倍。
  
  而在此之前,百度也已經(jīng)開源了深度學習開源平臺PaddlePaddle、人工智能技術(shù)平臺Warp-CTC等,同樣推動了新興技術(shù)的傳播與發(fā)展,對業(yè)界產(chǎn)生了積極影響。隨著語音交互領域多項先進技術(shù)的開源,這一領域的競爭將變得更加激烈,同時將有更多科技巨頭愿意分享先進技術(shù),推動行業(yè)發(fā)展。
  
  更重要的是,傳統(tǒng)的語音交互技術(shù)將受到極大挑戰(zhàn),例如百度當前的語音交互架構(gòu)相對于工業(yè)界主流的CLDNN結(jié)構(gòu),錯誤率相對降低了10%以上,共享技術(shù)之后,當前主流架構(gòu)將被逐漸淘汰已經(jīng)在情理之中。同時,在快速發(fā)展、迭代的語音技術(shù)下,組建新知識產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟已經(jīng)勢在必行,業(yè)界先例是2015年底百度開放上百項智能語音并與海爾、京東、中興通訊在內(nèi)的20多家企業(yè)組建了智能語音知識產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,
  
  隨著語音交互技術(shù)的進一步開放,這種開放式創(chuàng)新和開放式知識產(chǎn)權(quán)許可的結(jié)合,或許會取代傳統(tǒng)的語音池,成為智能語音未來的產(chǎn)業(yè)核心模式。事實上,在百度、谷歌、亞馬遜等國內(nèi)外科技巨頭的緊逼下,智能語音行業(yè)格局已然改變,傳統(tǒng)語音技術(shù)巨頭Nuance集團在2014年還占據(jù)語音交互領域60%市場份額,2015年末就遭到腰斬,僅為31%,隨著行業(yè)技術(shù)的開放和發(fā)展,產(chǎn)業(yè)格局將繼續(xù)發(fā)生變化。
  
  可以說,隨著技術(shù)的開放和進步,語音交互的應用場景將更加寬泛,落地商用速度也將加快,語音交互領域即將進入大規(guī)模產(chǎn)業(yè)化的時代,新一輪的變革來臨之際,核心技術(shù)和能力比拼正是個中關鍵,誰能掌握這兩點,誰就能獲得*的資格,而對于用戶群體來說,智能語音交互的未來足夠光明值得期待。
關鍵詞 語音系統(tǒng)人機互換智能語音
相關閱讀更多
版權(quán)與免責聲明:

凡本網(wǎng)注明“來源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應在授權(quán)范圍內(nèi)使用,并注明“來源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關法律責任。

本網(wǎng)轉(zhuǎn)載并注明自其它來源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權(quán)等法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權(quán)利。

正在閱讀:百度開放四項語音技術(shù) 智能語音交互將迎爆發(fā)期
我要投稿
  • 投稿請發(fā)送郵件至:(郵件標題請備注“投稿”)afzhan@foxmail.com
  • 聯(lián)系電話0571-87756384
智慧城市行業(yè)“互聯(lián)網(wǎng)+”服務平臺
智慧城市網(wǎng)APP

功能豐富 實時交流

智慧城市網(wǎng)小程序

訂閱獲取更多服務

微信公眾號

關注我們

抖音

智慧城市網(wǎng)

抖音號:afzhan

打開抖音 搜索頁掃一掃
i

視頻號

AF智慧城市網(wǎng)

視頻號ID:sphF7DOyrojJnp8

打開微信掃碼關注視頻號

小紅書

智慧城市

小紅書ID:2537047074

打開小紅書 掃一掃關注
反饋