【中國(guó)安防展覽網(wǎng) 品牌專欄】“人們?nèi)魡?wèn)這個(gè)世界是一直存在呢,還是剛剛開(kāi)始呢?其答案肯定是這樣:它剛剛開(kāi)始,因?yàn)樗强梢?jiàn)的、可觸的、具體的,感官所能知覺(jué)的任何東西,沒(méi)有一件像思想的對(duì)象那樣是永恒不變的。”——柏拉圖《蒂邁歐篇》
兩千多年前,柏拉圖借助蒂邁歐之口,向世人描繪了他心中的宇宙創(chuàng)立過(guò)程。而今,在依圖的德?tīng)柗蔷奂?Delphi Talk),來(lái)自法蘭克福研究所的馬爾斯伯教授(Christoph Von Der Malsburg)借助柏拉圖的宇宙觀,向世人描繪了一條通往通用人工智能(Artificial General Intelligence)的路徑。
不知不覺(jué),人工智能已經(jīng)在泥濘中蹣跚發(fā)展了六十年。其中計(jì)算機(jī)視覺(jué)領(lǐng)域異軍突起,借助深度神經(jīng)網(wǎng)絡(luò)、大量標(biāo)注數(shù)據(jù)、強(qiáng)計(jì)算能力的加持,機(jī)器能夠把你從十億個(gè)人里面找出來(lái),但卻依然不能像三歲小孩子那樣輕易學(xué)會(huì)一個(gè)新的物體類別。
1966年,馬文·明斯基(Marvin Minsky)在麻省理工學(xué)院讓他的學(xué)生用一個(gè)暑假的時(shí)間完成一個(gè)計(jì)算機(jī)視覺(jué)的課題,然而52年過(guò)去了,計(jì)算機(jī)視覺(jué)距離“通用”這兩個(gè)字,依然有著山海不可平的距離。
通用計(jì)算機(jī)視覺(jué)與人的視覺(jué)系統(tǒng)類似。這意味著,它不僅得分辨出動(dòng)態(tài)環(huán)境下的所有物體,還得能理解它們。它可以分析出它們之間的邏輯關(guān)系,甚至得要有記憶功能。而不只是簡(jiǎn)單地反饋一個(gè)結(jié)果,盡管這個(gè)結(jié)果在限定的條件下準(zhǔn)確率很高。
馬爾斯伯教授認(rèn)為,現(xiàn)在主流人工智能領(lǐng)域分為兩大陣營(yíng),一個(gè)是基于傳統(tǒng)算法,另一個(gè)則基于人工神經(jīng)系統(tǒng)(Artificial Neural System)。
基于傳統(tǒng)算法的人工智能屬于狹義人工智能范疇。程序員需要總結(jié)某個(gè)特定問(wèn)題來(lái)理解它的本質(zhì),然后將這個(gè)本質(zhì)融合到一個(gè)算法中。雖然在發(fā)展過(guò)程中發(fā)明了大量的實(shí)用軟件工具,諸如文字處理、計(jì)算機(jī)代數(shù)、會(huì)計(jì)、計(jì)算機(jī)圖形學(xué)、建筑設(shè)計(jì)等工具,但從本質(zhì)來(lái)說(shuō)它只是罐裝的人類智能而已。
基于傳統(tǒng)算法的人工智能科學(xué)家也在努力設(shè)想通用人工智能的解決之道,但是馬爾斯伯教授認(rèn)為除非建立了一個(gè)普遍完備的數(shù)據(jù)結(jié)構(gòu),以及重新正視示例學(xué)習(xí)的重要性,否則很難觸及通用的本質(zhì)。
馬爾斯伯教授提到的示例學(xué)習(xí)的對(duì)象,正是人類的大腦,這也是人工神經(jīng)系統(tǒng)(Artificial Neural System)陣營(yíng)具魅力的靈感源泉。以深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)為代表,也是形成了這次人工智能浪潮的主要原因。
然而它的缺陷也是顯而易見(jiàn)的——任何經(jīng)過(guò)標(biāo)注數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)系統(tǒng)都是針對(duì)特定領(lǐng)域的,什么樣的數(shù)據(jù)集決定了它所能解決的領(lǐng)域和問(wèn)題。換句話來(lái)說(shuō),它就好像是人類智慧的微小切片。
為了解決通用問(wèn)題,馬爾斯伯教授提出了另一條模仿大腦與人類視覺(jué)系統(tǒng)的探索路徑。
他認(rèn)為,大腦是人類智能的核心,而視覺(jué)是大腦的典型功能,它有認(rèn)知和觀察相一致的特點(diǎn),與大腦的神經(jīng)系統(tǒng)緊密糾纏在一起,是具備驗(yàn)證和模仿條件的。正如科學(xué)是一個(gè)反問(wèn)題一樣——你首先要發(fā)明一個(gè)概念,然后得用實(shí)驗(yàn)驗(yàn)證它。視覺(jué)也是一個(gè)反問(wèn)題,這意味著你可以輕而易舉地利用視覺(jué)看到所有的物體,但是要回溯視覺(jué)能力的基礎(chǔ)架構(gòu)、找到產(chǎn)生當(dāng)時(shí)視覺(jué)畫(huà)面的所有輸入?yún)s并不容易。
當(dāng)你通過(guò)視覺(jué)系統(tǒng)看見(jiàn)一只貓或者是一條狗的時(shí)候,你可能并不需要看清它的全貌就能夠做出正確的判斷,你甚至可能會(huì)有99%的輸入內(nèi)容是由記憶中提取。所以馬爾斯伯教授認(rèn)為,對(duì)視覺(jué)輸入系統(tǒng)的建立,需要同時(shí)依賴于記憶片段和投影模式的集合。
為了模擬視覺(jué)能力,馬爾斯伯教授開(kāi)創(chuàng)性地提出了自組織動(dòng)態(tài)圖模型系統(tǒng)的概念。
就好像在柏拉圖宇宙觀中,時(shí)間是永恒的映像,物理世界的一切都是真理的投射。馬爾斯伯教授的動(dòng)態(tài)圖模型系統(tǒng)構(gòu)成了這個(gè)永恒映像的本體,它是一個(gè)通用視圖庫(kù),由一張張動(dòng)態(tài)圖片的基本構(gòu)建構(gòu)成。
馬爾斯伯教授詳細(xì)描述了這個(gè)視圖庫(kù)的創(chuàng)建過(guò)程,每一張圖片,會(huì)根據(jù)圖片的內(nèi)容歸類為不同的部件,諸如顏色、材料、陰影、幾何圖形、邊緣等。當(dāng)有足夠多的圖片,就會(huì)形成通用的不同種類的部件屬性,這些屬性用神經(jīng)系統(tǒng)的方式形成一個(gè)視圖庫(kù)。
當(dāng)需要識(shí)別圖像時(shí),圖像上的某些部件特征形成信號(hào)源,能夠激活這個(gè)通用視圖庫(kù)相應(yīng)的部件,這個(gè)視圖庫(kù)會(huì)產(chǎn)生動(dòng)態(tài)變化,自然運(yùn)動(dòng)到一個(gè)恰當(dāng)?shù)奈恢枚M(jìn)行識(shí)別。由于這個(gè)視圖庫(kù)對(duì)圖像中的不同部件、不同的特征、空間屬性有分類的能力,每一次激活和搜索都變得非常有效率。
馬爾斯伯教授強(qiáng)調(diào)了這個(gè)系統(tǒng)是一個(gè)自組織的系統(tǒng),這個(gè)靈感同樣來(lái)源于大腦。
一方面,人類的大腦是一個(gè)僅僅建立在1GB遺傳信息上的有機(jī)體。另一方面,人類的大腦又是包含了800億個(gè)神經(jīng)元的復(fù)雜有機(jī)體。它既輕巧又復(fù)雜,集合這兩種矛盾為一體,主要依賴于它強(qiáng)大的基于自我交互的組織機(jī)制。
從大腦系統(tǒng)的初始結(jié)構(gòu)開(kāi)始,它歷經(jīng)的每個(gè)狀態(tài)所生成的活動(dòng)都能對(duì)它的結(jié)構(gòu)起反作用,大腦系統(tǒng)能對(duì)自己進(jìn)行修改和區(qū)分,形成了大腦網(wǎng)絡(luò)的自組織。大腦的這種連接機(jī)制,在搜索信息時(shí),能夠形成無(wú)限的認(rèn)知空間和穩(wěn)定的自我交互。
而在視圖庫(kù)中模擬出這種自組織的能力,正是讓計(jì)算機(jī)視覺(jué)擺脫簡(jiǎn)單地輸入信息和反饋結(jié)果的機(jī)制,具備記憶和動(dòng)態(tài)變化,解決物理世界的組合爆炸問(wèn)題,進(jìn)而具有通用能力的基礎(chǔ)。
現(xiàn)在,馬爾斯伯教授和他位于法蘭克福的初創(chuàng)公司 PLATONITE 正在致力于這項(xiàng)激動(dòng)人心的研究。在他的實(shí)驗(yàn)室里,這種新穎的自組織動(dòng)態(tài)圖模型系統(tǒng)已經(jīng)能夠開(kāi)始識(shí)別簡(jiǎn)單的物體。
這位研究智能四十余年之久的科學(xué)家,面對(duì)已經(jīng)停滯不前數(shù)十年之久的人工智能基礎(chǔ)理論研究,并未回避實(shí)現(xiàn)智能的根本性問(wèn)題,而是以一種公正的態(tài)度走到了德?tīng)柗蔷奂氐闹v臺(tái)上,分享他的新觀點(diǎn)。這是我們的榮幸!