【中國安防展覽網(wǎng) 科技動態(tài)】據(jù)外媒報道,近日,美國麻省理工大學(xué)(MIT)新開發(fā)了一款名為“AlterEgo”的頭戴設(shè)備,可以實現(xiàn)“不言自明”的讀心境界。用戶不用說話,它就能夠識別出用戶想說的內(nèi)容。而且——識別“沉默語言”信息的準(zhǔn)確率高達92%!據(jù)稱,有了這一神奇的黑科技,人們就可以在某些時候——比如在公共場合選擇不發(fā)出語音,即可下達指令,從而免去很多尷尬。
這種頭戴設(shè)備其實是一種計算機界面,由可穿戴設(shè)備和相關(guān)計算系統(tǒng)組成。設(shè)備中的電極會捕捉下頜和面部的神經(jīng)肌肉信號,這些信號是由內(nèi)部言語觸發(fā)的——能夠讀取你腦海中想說的話——但是人眼無法察覺。信號被饋送到機器學(xué)習(xí)系統(tǒng),該機器學(xué)習(xí)系統(tǒng)已經(jīng)被訓(xùn)練成將特定信號與特定的字相關(guān)聯(lián)。
該裝置還包括一對骨傳導(dǎo)頭戴式耳機,其通過臉部的骨骼將振動傳遞到內(nèi)耳。由于它們不會阻塞耳道,因此耳機可以使系統(tǒng)在不中斷對話、不干擾用戶的聽覺體驗的情況下,向用戶傳達信息。
該設(shè)備是一個完整的靜音計算系統(tǒng)的一部分,可讓用戶無法察覺地擺出姿勢并接受難以計算問題的答案。例如,在研究人員的一項實驗中,受試者使用該系統(tǒng)默默報告對手在象棋游戲中的動作,并同樣默默接受計算機推薦的回應(yīng)。
“這樣做的動機是建立一個智能增強設(shè)備,”麻省理工學(xué)院媒體實驗室的研究生Arnav Kapur說,他領(lǐng)導(dǎo)了這個新系統(tǒng)的開發(fā)。“我們的想法是:我們可以擁有一個更內(nèi)部的計算平臺,它在某些方面融合了人機和計算機,并且感覺像是我們自己認知的內(nèi)部擴展。”
“我們基本上離不開我們的手機和數(shù)字設(shè)備,”媒體藝術(shù)和科學(xué)教授Pattie Maes說。 “但目前,這些設(shè)備的使用非常具有破壞性。如果我想要查看與我正在進行的對話相關(guān)的事情,我必須找到我的手機并鍵入密碼并打開一個應(yīng)用,并輸入一些搜索關(guān)鍵字,整個事情要求我完全將注意力從周圍環(huán)境以及對話的人轉(zhuǎn)移到手機上。所以,我和我的學(xué)生長期以來一直在嘗試新的外形因素和新的體驗類型,讓人們?nèi)匀豢梢詮倪@些設(shè)備給我們提供的所有精彩知識和服務(wù)中受益,并可以同時更融入自己周圍的環(huán)境。
微妙的信號
自19世紀以來,內(nèi)部言語表達與身體相關(guān)的觀點一直存在,并在20世紀50年代進行了嚴格的調(diào)查。 20世紀60年代速讀運動的目標(biāo)之一就是消除內(nèi)部的言語表達,或者稱之為“默讀”(subvocalization)。
但是,作為計算機接口的默讀內(nèi)容很大程度上是未知的。研究人員的步是確定臉上哪些位置是可靠的神經(jīng)肌肉信號的來源。所以他們進行了一些實驗,在這些實驗中,要求相同的受試者將同一系列的單詞四次次定位,每次16個電極在不同的面部位置。
研究人員編寫代碼來分析結(jié)果數(shù)據(jù),發(fā)現(xiàn)來自七個特定電極位置的信號始終能夠區(qū)分次定位字。在會議論文中,研究人員報告了一種可穿戴無聲語音界面的原型,該界面像電話耳機一樣纏繞在脖子后部,并且具有觸手狀彎曲的附屬物,其在嘴部兩側(cè)的七個位置處接觸臉部并貼合著下巴。
但是在目前的實驗中,研究人員使用一個顎上只有四個電極的方法獲得了可比較的結(jié)果,可喜的是,佩戴的這個設(shè)備不像以往那么笨重累贅。
一旦他們選擇了電極位置,研究人員就開始收集數(shù)據(jù),內(nèi)容包括一些有限詞匯表的計算任務(wù)——每個約20字。一種是算術(shù)運算,其中用戶將重點定位大的加法或乘法問題;另一個是象棋應(yīng)用程序,用戶使用標(biāo)準(zhǔn)的象棋編號系統(tǒng)來報告具體的移動。
然后,對于每個應(yīng)用程序,他們使用神經(jīng)網(wǎng)絡(luò)來查找特定神經(jīng)肌肉信號和特定詞之間的相關(guān)性。像大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,研究人員使用的網(wǎng)絡(luò)被安排成簡單處理節(jié)點的層次,每個層次都連接到上下層中的幾個節(jié)點。數(shù)據(jù)被送入底層,其節(jié)點處理它并將它們傳遞給下一層,節(jié)點處理它并將它們傳遞到下一層,依此類推。終圖層產(chǎn)量的輸出是一些分類任務(wù)的結(jié)果。
研究人員系統(tǒng)的基本配置包括一個神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練來識別來自神經(jīng)肌肉信號的未定位詞語,但它可以通過只重新訓(xùn)練后兩層的過程為特定用戶實現(xiàn)定制“識別”。
“無聲識別”可靠度有多高?
研究人員利用原型可穿戴接口進行了一項可用性研究,其中10位受試者花費了大約15分鐘時間,進行輸入,然后用90分鐘用于執(zhí)行計算。在該研究中,該系統(tǒng)的平均轉(zhuǎn)錄準(zhǔn)確率約為92%。
但是,卡普爾說,系統(tǒng)的性能應(yīng)該會隨著更多的培訓(xùn)數(shù)據(jù)而改善,這些培訓(xùn)數(shù)據(jù)可以在日常使用中收集。盡管他并沒有揣測數(shù)據(jù),但他估計他用于示范的訓(xùn)練有素的系統(tǒng)的準(zhǔn)確率高于可用性研究報告的準(zhǔn)確率。
在正在進行的工作中,研究人員正在收集大量關(guān)于更精細對話的數(shù)據(jù),希望能夠用更廣泛的詞匯來構(gòu)建應(yīng)用程序。
卡普爾說:“我認為我們有一天會實現(xiàn)全面對話。”
喬治亞理工學(xué)院計算學(xué)院教授Thad Starner指出,這種“讀心系統(tǒng)”在一些特定的操作中將會發(fā)揮巨大潛力。比如,在充滿噪音的飛機場等環(huán)境,地勤和其他工作人員可以更好地傳遞信號。在一些特別安靜的地方它也會大展身手——你不能大聲說話時這樣的一種設(shè)備再方便不過了。另外,一些有發(fā)聲障礙的殘疾人也可以充分應(yīng)用這一技術(shù)帶來的便利。(原標(biāo)題:讀心術(shù)成現(xiàn)實!麻省理工研發(fā)出頭戴設(shè)備“AlterEgo” 信息識別準(zhǔn)確率達92%)