【中國(guó)安防展覽網(wǎng) 企業(yè)關(guān)注】外界看來(lái),深度學(xué)習(xí)也許仍處于計(jì)算機(jī)科學(xué)家和數(shù)據(jù)專家們正在對(duì)其能力進(jìn)行測(cè)試的研究階段,實(shí)際上,深度學(xué)習(xí)已經(jīng)有一些實(shí)際的商業(yè)應(yīng)用,隨著研究的進(jìn)行,更多的應(yīng)用也將實(shí)現(xiàn)。目前主要的應(yīng)用有:
語(yǔ)音識(shí)別:商業(yè)和學(xué)術(shù)界都在使用深度學(xué)習(xí)進(jìn)行語(yǔ)音識(shí)別。Xbox,Skype,Google Now 和 Apple Siri,都已經(jīng)在其系統(tǒng)中采用深度學(xué)習(xí)技術(shù)。
圖像識(shí)別:圖像識(shí)別的一個(gè)實(shí)際應(yīng)用是自動(dòng)圖像說(shuō)明和場(chǎng)景描述。這對(duì)于在一個(gè)擁擠地區(qū)有*發(fā)生時(shí),從旁觀者提交的數(shù)千張照片中查明*活動(dòng)的執(zhí)法調(diào)查至關(guān)重要。自動(dòng)駕駛汽車同樣能從中受益。
自然語(yǔ)言處理:神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的核心組成部分,很多年來(lái)一直被用來(lái)分析和處理書面文本。專業(yè)化的文本挖掘可以用于處理用戶投訴,醫(yī)療記錄或新聞報(bào)道。
在此次深度學(xué)習(xí)大講堂,邀請(qǐng)了俞凱老師、顏水成老師、李航老師等三位大咖討論深度學(xué)習(xí)的未來(lái),其中圍繞語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等方面展開深入討論。
聲、圖、文領(lǐng)域相互借鑒
山世光:今天的三位大咖里,俞凱老師做語(yǔ)音識(shí)別,顏水成老師主攻視覺方向,而李航老師則在自然語(yǔ)言的理解處理領(lǐng)域非常資深,而且在更加廣泛的人工智能上問題上也有研究,包含了聲、圖、文三個(gè)領(lǐng)域。雖然過(guò)去中財(cái)網(wǎng)對(duì)通用的人工智能曾經(jīng)有過(guò)很高的期望,但是實(shí)際上一直沒有落地,但是如今深度學(xué)習(xí)給大家?guī)?lái)了很多的機(jī)會(huì),而且底層的技術(shù)有了越來(lái)越多的共性,比如說(shuō)卷積神經(jīng)網(wǎng)絡(luò)不僅在語(yǔ)音里面有用,在自然語(yǔ)言處理里面也有應(yīng)用,所以我想請(qǐng)三位從這個(gè)視角談一下,這一輪AI在通用技術(shù)方面有什么樣的進(jìn)展?
俞凱:關(guān)于這一輪的AI潮,我說(shuō)一下自己的感受。我先拋一個(gè)觀點(diǎn),凡是在機(jī)器學(xué)習(xí)范式上一樣的東西,聲圖文全都可以用,而且任何一個(gè)機(jī)器學(xué)習(xí)方法在這三樣里面都可以用。什么叫范式?比如說(shuō)分類問題,CNN之所以在語(yǔ)音識(shí)別里用的多,很重要的一點(diǎn)就是它能夠處理高度非線性的映射,有非常好的分類能力。只要是面對(duì)這樣的問題,就一定可用,所以我們現(xiàn)在也很關(guān)注圖像方面的東西。
只要是能夠歸結(jié)為范式性的東西,是分類,第二是回歸,這是典型的兩類事,第三是序列標(biāo)注。只要能歸屬這三類的,幾乎都可以通用,只是用的方法不一樣。
李航:你剛才提到深度學(xué)習(xí)和大數(shù)據(jù)的結(jié)合紅利,以及人工智能在技術(shù)層面上的打通,未來(lái)在應(yīng)用層面上也會(huì)有很多的機(jī)會(huì)。
現(xiàn)在在UC Berkeley有一種研究,就是給機(jī)器人看一段“人開門”的視頻,機(jī)器人在看完視頻之后,可以學(xué)會(huì)自己用手去開門。以前這種運(yùn)動(dòng)和視頻的理解是完全不同的領(lǐng)域。大家自然可以想到相關(guān)的,比如我跟你說(shuō)一段話,這個(gè)機(jī)器會(huì)不會(huì)理解,能做什么事情,這種可能性在未來(lái)應(yīng)該是有的。在深度學(xué)習(xí)、大數(shù)據(jù)這些技術(shù)的延長(zhǎng)線上,假設(shè)有很多的數(shù)據(jù),以及很強(qiáng)的計(jì)算能力,這種跨模態(tài)、跨領(lǐng)域的應(yīng)用,應(yīng)該是未來(lái)發(fā)展的一個(gè)增長(zhǎng)點(diǎn)。
顏水成:大部分人對(duì)于通用智能的理解,目前還停留在概念階段??赡艽蠹抑饕氲氖峭ㄓ萌斯ぶ悄苁鞘裁礃拥?,但是對(duì)于怎么樣讓機(jī)器實(shí)現(xiàn)或者產(chǎn)生通用人工智能,其實(shí)討論的不是特別多??偟膩?lái)說(shuō)通用人工智能暫時(shí)是遙不可及的事情。
山世光:我把剛才這個(gè)問題換一個(gè)問法。比如說(shuō)過(guò)去做人臉識(shí)別,我們可能連計(jì)算機(jī)識(shí)別領(lǐng)域的其他的子問題怎么做都不關(guān)心。但是現(xiàn)在不一樣,現(xiàn)在要做人臉識(shí)別,只看人臉識(shí)別的論文肯定是不行了,還要看其他類似領(lǐng)域或者更通用的論文。從這個(gè)聲圖文這三個(gè)大的領(lǐng)域來(lái)說(shuō),它們之間的相互借鑒和技術(shù)層面的交叉,我覺得已經(jīng)越來(lái)越多了。像CNN是從圖像領(lǐng)域里面起來(lái)的,1989年就開始在做了。不知道俞凱老師是不是可以介紹一下,在語(yǔ)音方面的應(yīng)用和圖像方面的應(yīng)用會(huì)有什么樣的差別?
顏水成:根據(jù)我的觀察,在聲圖文領(lǐng)域里,聲音的問題相對(duì)來(lái)說(shuō)比較少一些,比如像語(yǔ)音識(shí)別、TTS、或者聲紋識(shí)別,而圖像領(lǐng)域的問題太多了,而且落地的方式比語(yǔ)音多很多。這也許是為什么計(jì)算機(jī)視覺領(lǐng)域的從業(yè)者比語(yǔ)音識(shí)別更多。
俞凱:我覺得顏水成老師是一語(yǔ)中的,但這個(gè)觀點(diǎn)我肯定是不同意的(指聲音領(lǐng)域的問題相對(duì)較少的觀點(diǎn)),其實(shí)是語(yǔ)音的人看起來(lái)借鑒圖像的人比較多。
顏水成:但是深度學(xué)習(xí)在語(yǔ)音上是早成功的。
俞凱:實(shí)際上不只是深度學(xué)習(xí),真正圖像的人看語(yǔ)音的論文相對(duì)來(lái)說(shuō)比較少的,這跟整個(gè)領(lǐng)域的覆蓋有關(guān),所以我覺得剛才是一語(yǔ)中的,主要就是對(duì)問題的挖掘,這跟整個(gè)的歷史發(fā)展是相關(guān)的,這是事實(shí)。但是倒過(guò)來(lái)講,我是不太同意的,原因很簡(jiǎn)單,語(yǔ)音放在那,它就是一個(gè)模態(tài),里面涉及到環(huán)節(jié)非常多,所以就會(huì)出現(xiàn)一個(gè)現(xiàn)象,真正搞語(yǔ)音的人出來(lái)創(chuàng)業(yè)的比較少,特別難做,為什么呢?因?yàn)槟惚仨毷裁炊级?,包括那些學(xué)術(shù)界還沒弄出來(lái)的,但是你必須弄出來(lái),才能終變成一個(gè)系統(tǒng)。
顏水成:所以它是一個(gè)閉環(huán)的,包含麥克風(fēng)陣列、降噪、語(yǔ)音識(shí)別等一系列問題。
俞凱:語(yǔ)音大的特點(diǎn)是什么呢?它不像圖象,任何一個(gè)子問題馬上都能看得見,你必須得繞一個(gè)圈,要么回答你了,要么看到識(shí)別的結(jié)果才可以。它的鏈條是非常長(zhǎng)的,從剛才說(shuō)到的硬件、軟件、信號(hào)、特征、模型、再到后處理,這一系列完了之后才能看到一個(gè)結(jié)果,很難知道哪一塊做的好或者做的不好,因此對(duì)后面的結(jié)果有重大的影響。如果你從中單獨(dú)拎出去一塊,想要直接評(píng)估它的指標(biāo)并不是那么容易,所以這個(gè)是語(yǔ)音發(fā)展的一個(gè)特點(diǎn)。
山世光:其實(shí)我覺得視覺和語(yǔ)音領(lǐng)域,還是借鑒很多來(lái)自于自然語(yǔ)言理解領(lǐng)域的一些技術(shù)方法,比如說(shuō)上一代的一些模型,已經(jīng)在視覺領(lǐng)域里面用了好多年,在深度學(xué)習(xí)出來(lái)之前,基本上是這一套。那么除了這個(gè)之外的話,據(jù)您(李航老師)的了解,還有什么樣的技術(shù)可能是在原理或者歷*,也借鑒了自然語(yǔ)言理解的技術(shù)?或者反過(guò)來(lái)說(shuō),自然語(yǔ)言的理解領(lǐng)域的同行們,他們會(huì)不會(huì)也關(guān)注語(yǔ)音或者視覺這些領(lǐng)域的進(jìn)展?
李航:剛才你說(shuō)那個(gè)現(xiàn)象,以前可能在自然語(yǔ)言和其他的人工智能領(lǐng)域之間也是這樣,大家不會(huì)關(guān)注視覺和語(yǔ)音方面的事情?,F(xiàn)在這個(gè)界限慢慢越來(lái)越模糊了,大家會(huì)互相借鑒,這個(gè)現(xiàn)象可能是歷*沒有發(fā)生過(guò)的。然后你們剛剛說(shuō)的這個(gè)聲圖文,其實(shí)“文”里面有一個(gè)和聲、圖本質(zhì)上不一樣的地方,它有這個(gè)符號(hào)(symbol),它的本質(zhì)的特點(diǎn)就是在語(yǔ)音識(shí)別以后,轉(zhuǎn)換成了符號(hào)。在語(yǔ)言表達(dá)的時(shí)候,我們認(rèn)為我們能夠理解一些概念,傳達(dá)一些概念的時(shí)候,其實(shí)是有對(duì)應(yīng)的符號(hào)的,這個(gè)就是跟語(yǔ)音和圖像不太一樣的地方。
說(shuō)到深度學(xué)習(xí),剛才俞凱老師說(shuō)的我也挺同意的,2014年左右,有一個(gè)過(guò)去了,下一波從我們自然語(yǔ)言處理的角度來(lái)看的話,怎么樣能夠把深度學(xué)習(xí)的技術(shù)neural processing和symbol processing結(jié)合起來(lái),是自然語(yǔ)言未來(lái)必然要去解決的問題。這里面有很多挑戰(zhàn),首先就是目前還不清楚人的大腦里面這種符號(hào)到底對(duì)應(yīng)的是什么東西,怎么樣能夠像做CNN一樣擴(kuò)展現(xiàn)在的深度模型也不是很清楚。符號(hào)其實(shí)是挺硬的東西,而深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)是很軟的東西,我們處理人的語(yǔ)言,包括對(duì)話的理解,從文本里面獲取知識(shí),理解文本的內(nèi)容,這些應(yīng)用都是需要這種軟、硬處理的結(jié)合。我認(rèn)為自然語(yǔ)言處理和深度學(xué)習(xí)未來(lái)發(fā)展的重要關(guān)鍵就是“怎樣做neural symbolic processing”,這塊是可能跟其他兩類不太一樣。
聲、圖、文怎樣落地?
山世光:我近其實(shí)特別羨慕做語(yǔ)音的,為什么這么說(shuō)呢?因?yàn)檎Z(yǔ)音這個(gè)領(lǐng)域,它處理的結(jié)果直接變成了符號(hào),但是視覺這塊,我們自己說(shuō)一圖勝千言,好象是說(shuō)一張圖可以有很多很多的符號(hào)出來(lái),但是它其實(shí)和非常的命令,比如說(shuō)我們?nèi)タ刂埔粋€(gè)東西,和語(yǔ)音以及語(yǔ)言是直接相關(guān)的,從這點(diǎn)來(lái)講的話,語(yǔ)音就有非常豐富的內(nèi)容,可以很的去表達(dá),這也是為什么說(shuō)語(yǔ)音的應(yīng)用比視覺更早了一步。特別是語(yǔ)音識(shí)別,跟自然語(yǔ)言理解的連接更加直接一點(diǎn),而視覺這塊就稍微弱了一點(diǎn),但是近兩年有一個(gè)專門話題是vision和language(視覺和語(yǔ)言),大概是從2015年才開始的,之前也有人做,但是做的很爛。2015年之后看起來(lái)好像有一些聲稱通過(guò)了圖靈測(cè)試,但是我覺得還是有點(diǎn)弱。從這點(diǎn)來(lái)講的話,比如說(shuō)做APP,我自己去創(chuàng)業(yè)的時(shí)候,別人都會(huì)說(shuō)視覺能不能做一個(gè)單獨(dú)的APP給用戶用,而不是說(shuō)作為一個(gè)錦上添花的東西嵌入到一個(gè)已有的系統(tǒng)里面去,是不是視覺會(huì)有這種缺陷?
顏水成:現(xiàn)在還是有不少這種純視覺的APP的,比如美圖秀秀、FaceU,這些就是典型的視覺。我個(gè)人覺得視覺這個(gè)領(lǐng)域的話,因?yàn)樗?jīng)??梢杂胁煌膭?chuàng)新,比如說(shuō)今年非常典型的熱點(diǎn)就是短視頻的生產(chǎn)和聚合,各大創(chuàng)業(yè)公司(以今日頭條為代表),以及傳統(tǒng)的IT公司(比如360、百度、騰訊),都在推動(dòng)短視頻,這些東西跟傳統(tǒng)的純粹圖像分析不一樣。短視頻興起后,你的計(jì)算模型的efficiency,推薦算法等,都會(huì)跟以前完全不一樣。比如圖文的時(shí)候,可以用surrounding text做一些事情,那么短視頻出現(xiàn)之后的話,可能就沒有什么太多的caption(字幕)或者title(標(biāo)題)的東西,這個(gè)時(shí)候主要依賴的是視覺的東西。無(wú)論是學(xué)術(shù)界工業(yè)界,其實(shí)對(duì)短視頻的分析的投入和研發(fā)的力度是加強(qiáng)了的。雖然聲音還在里面,但是可能對(duì)于文本的依賴性變?nèi)趿?。從視覺維度來(lái)說(shuō)的話,深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合紅利又一波又要來(lái)了,而不是到了瓶頸期。
山世光:就是視頻的結(jié)構(gòu)化、符號(hào)化和后端的搜索、應(yīng)用的連接。
李航:這是個(gè)挺好的例子,其實(shí)剛才我們提到的語(yǔ)音,俞凱老師做的東西跟語(yǔ)言相關(guān),只不過(guò)是從語(yǔ)音對(duì)話的角度去看這個(gè)東西,其實(shí)語(yǔ)音和語(yǔ)言比較容易自然的結(jié)合在一起,現(xiàn)在已經(jīng)變成一個(gè)相對(duì)比較大的領(lǐng)域。我對(duì)未來(lái)的預(yù)測(cè)是,真正做語(yǔ)音識(shí)別的人會(huì)越來(lái)越少,而做語(yǔ)音對(duì)話的人會(huì)越來(lái)越多,這是一個(gè)整體的大的領(lǐng)域,而語(yǔ)音識(shí)別是其中一部分。
顏水成:對(duì)于語(yǔ)音對(duì)話這塊,我個(gè)人的觀點(diǎn)有點(diǎn)不一樣,對(duì)話非常依賴于語(yǔ)料,這樣的話,只有兩類公司比較適合做這個(gè)事情。一類的話就是有search engine的公司,還有一類就是以騰訊、微軟為代表的,有instant message產(chǎn)品的公司,比如微信、Skype。這些公司有天然的優(yōu)勢(shì)。
李航:我們倆說(shuō)的其實(shí)不矛盾,這個(gè)領(lǐng)域有這樣的應(yīng)用,那么自然就需要將語(yǔ)音、語(yǔ)言的處理技術(shù)融合起來(lái)。相對(duì)來(lái)說(shuō),傳統(tǒng)的語(yǔ)音識(shí)別和語(yǔ)言處理的人會(huì)越來(lái)越少,而在更大的應(yīng)用背景下,更大的技術(shù)范圍內(nèi),人會(huì)越來(lái)越多,這是我的預(yù)測(cè)。
這三種用的技術(shù)都不一樣,而它的商業(yè)化模式區(qū)別也比較大。所以我會(huì)有一個(gè)感覺,可能細(xì)分能讓大家把這件事看的更具體一點(diǎn)?;卮饎偛派绞拦饫蠋熖岬降年P(guān)于圖像商業(yè)化這個(gè)問題,我也再說(shuō)一個(gè)觀點(diǎn):不解決痛點(diǎn),只解決癢點(diǎn)。什么意思呢?就是我一天不上微信,我簡(jiǎn)直就不行,我昨天兩點(diǎn)鐘到了賓館,我睡覺之前一定要看微信,因?yàn)樵陲w機(jī)上沒法看,那個(gè)是痛點(diǎn),真的很痛,我如果忘了這個(gè),比如說(shuō)李老師給我發(fā)了微信,我如果不知道,這后面就麻煩了,但是如果我不打開那個(gè)對(duì)話APP,這是沒事的,所以這是癢點(diǎn),這一點(diǎn)特別關(guān)鍵,它到底是疼的還是癢的。而從視覺的角度上講,其實(shí)我的感覺是有很多痛點(diǎn)的,而且比以前還痛,這就是為什么,雖然現(xiàn)在語(yǔ)音的發(fā)展?jié)摿Ψ浅4螅菑默F(xiàn)實(shí)的情況上來(lái)看,整體上視覺公司估值已經(jīng)比語(yǔ)音這邊高,而整個(gè)核心的應(yīng)用是一個(gè)什么東西呢?安防。安防這件事情是非常清晰的應(yīng)用。剛才提到的好幾類,包括說(shuō)這個(gè)APP的問題,要區(qū)分你做這個(gè)APP的性質(zhì)是什么,到底是工具性,還是社交性的,如果連這個(gè)都不區(qū)分的話,你的方向就不清楚,你就不知道,技術(shù)在里面占多大比例,工具性的占的比例高一點(diǎn),但是社交性的、游戲性的技術(shù)比例可能很低很低。而在安防領(lǐng)域,其實(shí)圖像是完全dominant的。
顏水成:安防其實(shí)也有個(gè)問題,其實(shí)公司都是都希望自己的技術(shù)能直接與用戶做交互,而做安防的話其實(shí)是默默的在后臺(tái)弄這個(gè)東西,普通老百姓不一定知道這個(gè)東西的存在,這可能是它的一個(gè)缺點(diǎn)。其實(shí)我覺得做視覺的人,還是希望能讓用戶看見,就是做2C(to customer)東西。
俞凱:我個(gè)人感覺,如果是2C的話,也只有兩種情況,一種情況就是你就是一個(gè)感知工具,這個(gè)感知工具是不可或缺的,比如輸入法,這個(gè)在自然語(yǔ)言處理里面是完全不可或缺的東西。還有一個(gè)方向就是必須得是個(gè)系統(tǒng),單獨(dú)語(yǔ)音可能不行,單獨(dú)圖像可能也不行,它可能會(huì)以其中一個(gè)為主 ,但是必須是個(gè)系統(tǒng)。
顏水成:請(qǐng)問現(xiàn)場(chǎng)有多少人體驗(yàn)過(guò)HoloLens?(現(xiàn)場(chǎng)觀眾舉手),看起來(lái)二十分之一都不到。我們現(xiàn)在在座的根本沒有多少人知道AR當(dāng)前的現(xiàn)狀是怎樣的,沒有體驗(yàn)過(guò)AR眼鏡目前處于什么水平。我次帶HoloLens眼鏡的時(shí)候,只是在實(shí)驗(yàn)室里面體驗(yàn)了十分鐘,用起來(lái)特別麻煩,因?yàn)槲④浺欢ㄒ阉馁~號(hào)跟HoloLens綁起來(lái),又不好輸入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外邊旅游,我一個(gè)人在家里,我就用了整整半天的時(shí)間,在家里把HoloLens設(shè)置好,把里面各種各樣的功能體驗(yàn)了一遍,然后就覺得這個(gè)東西還不錯(cuò),離我想象的科幻電影里的樣子又近了一點(diǎn),但是還是有問題,HoloLens太沉了,視野太窄,而且續(xù)航也不太給力。后來(lái)看到Lumus這個(gè)專門做光學(xué)鏡片的公司,它的產(chǎn)品能夠把信息從側(cè)面投影出來(lái),通過(guò)光波導(dǎo)這種形式把信號(hào)反射到你的眼睛里面,能把眼鏡做的和真的眼鏡大小差不多。這樣的話,極有可能能做到一款和普通的眼鏡大小差不多的AR眼鏡。
此外還有一些人在做SLAM技術(shù),以及一些配套的手勢(shì)控制的技術(shù)。特別是當(dāng)我看到Lumus的那個(gè)眼鏡,加上一個(gè)叫Infinity公司的SLAM技術(shù),合在一起的時(shí)候,你就會(huì)覺得這個(gè)眼鏡可以做的很小,并不是遙不可及的,我覺得AR眼鏡發(fā)展的腳步比我們想象的快了一些。所以大家有機(jī)會(huì)的話,應(yīng)該去體驗(yàn)一下。
(原文標(biāo)題:四位AI大??v論:深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合的紅利還能持續(xù)多久?文章有整理,包括不改變?cè)敢鈩h減)