【中國(guó)安防展覽網(wǎng) 品牌專欄】這是從0.1秒到0.005秒的跨越。
近日,中國(guó)人工智能“國(guó)家隊(duì)”云從科技宣布,在單幀圖像上的人體稠密3D關(guān)鍵點(diǎn)檢測(cè)技術(shù)取得了突破性進(jìn)展,并同時(shí)在3個(gè)3D人體數(shù)據(jù)集Human3.6M、 Surreal和UP-3D上,將原有低誤差記錄大幅降低30%,刷新了這一領(lǐng)域的世界紀(jì)錄。這是繼去年云從在3D人臉數(shù)據(jù)集上大幅刷新紀(jì)錄后,再一次在此類3D重建技術(shù)(此次是人體3D重建技術(shù))取得重要突破。
此次3D人體重建技術(shù)的突破,同時(shí)在度和速度上取得了大幅提升,呈現(xiàn)出來(lái)的模型更精細(xì),幀率達(dá)到200fps后很多應(yīng)用都可以實(shí)時(shí)顯示——這將極大地推動(dòng)相關(guān)智能圖像應(yīng)用的落地步伐。顛覆疑犯身份重建、醫(yī)療3D打印、虛擬試衣、虛擬化妝、美顏、瘦身、表情姿態(tài)動(dòng)畫(huà)合成(無(wú)需專業(yè)設(shè)備、呈現(xiàn)工業(yè)級(jí)電影拍攝效果)等應(yīng)用場(chǎng)景,幫助大型商場(chǎng)、直播平臺(tái)、美顏軟件、影視制作等行業(yè)進(jìn)行智慧化提升。
人體姿態(tài)和服飾復(fù)雜多樣,精度提升意味著對(duì)復(fù)雜場(chǎng)景的適應(yīng)性更好,模型更接近真實(shí)的情況。如阿凡達(dá)、漫威電影、阿麗塔等電影中,都需要專用設(shè)備與面部貼點(diǎn)來(lái)完成精細(xì)的人像采集,3D人體(面部)重建算法的精度提升將徹底顛覆電影視頻的拍攝制作。
論文中,云從科技針對(duì)人體具有豐富多樣的姿態(tài)和穿著的特點(diǎn),提出了一套全新的基于人體3D縱深預(yù)測(cè)的3D信息表征方式。通過(guò)對(duì)三原色圖像(RGB,不含深度信息)的分析,預(yù)測(cè)人體的3D形態(tài)和姿勢(shì),并用6萬(wàn)多個(gè)點(diǎn)描繪人體,從而在人體重建技術(shù)上取得速度與精度的雙突破。
從人臉三維重建到人體三維重建
去年,云從研究院曾提出針對(duì)人臉的稠密3D關(guān)鍵點(diǎn)技術(shù)PRNet,能夠基于一幀人臉圖像重建出約4萬(wàn)5千個(gè)人臉3D關(guān)鍵點(diǎn),在多個(gè)3D人臉數(shù)據(jù)集上大幅之前的技術(shù)。相關(guān)論文發(fā)表于去年的ECCV上,算法在Github社區(qū)上進(jìn)行了開(kāi)源,已獲得超過(guò)2600星。
云從科技人臉重建技術(shù)
相較于人臉,人體的3D重建更困難:
1-人體具有密閉的3D曲面結(jié)構(gòu),而不僅僅是一個(gè)局部曲面,任何一個(gè)角度拍攝的圖像都存在約一半的不可見(jiàn)部分;
2-人體的四肢具有更加多變的形態(tài),在3D空間的各個(gè)方向上都有更大的縱深,比人臉更加復(fù)雜;
3-人體由于穿著的影響,幾乎所有情況下都需要解決不同樣式服裝的遮擋問(wèn)題,而人臉中的遮擋情況屬于少數(shù)情況;
4-相對(duì)于人臉,人體的3D數(shù)據(jù)更難以獲取,對(duì)深度學(xué)習(xí)技術(shù)的使用限制更多
以往的3D人體重建算法往往需要將問(wèn)題降維,將復(fù)雜的人體形態(tài)簡(jiǎn)化到低維的線性間進(jìn)行表示,從而降低問(wèn)題的難度。
云從此次提出的3D人體重建算法擺脫了低維線性空間的限制,并設(shè)計(jì)了一種新型的3D信息表征方式,采用6w多個(gè)點(diǎn)表示3D人體,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)人體的3D形態(tài)和姿態(tài),從而取得了精度和速度上的雙重突破。
與傳統(tǒng)關(guān)鍵點(diǎn)檢測(cè)技術(shù)的區(qū)別
傳統(tǒng)的人體關(guān)鍵點(diǎn)檢測(cè)技術(shù)往往以2D的人體骨骼關(guān)節(jié)點(diǎn)檢測(cè)形式出現(xiàn),即通過(guò)算法預(yù)測(cè)RGB圖像中人體的十幾個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo),一方面結(jié)果非常稀疏,將人體大為簡(jiǎn)化成骨骼的形式,另一方面結(jié)果往往只包含二維平面上的坐標(biāo)預(yù)測(cè),不能還原深度信息,因此無(wú)法體現(xiàn)縱深的感覺(jué)。而人體稠密3D關(guān)鍵點(diǎn)檢測(cè)不僅能輸出骨骼關(guān)節(jié)點(diǎn)信息,更能同時(shí)預(yù)測(cè)大量的人體表面關(guān)鍵點(diǎn)信息,預(yù)測(cè)結(jié)果更加豐富,而且每個(gè)點(diǎn)的坐標(biāo)都是3D的,能夠體現(xiàn)不同軀干的縱深信息。
傳統(tǒng)關(guān)鍵點(diǎn)與稠密3D關(guān)鍵點(diǎn)對(duì)比
與傳統(tǒng)3D重建技術(shù)的區(qū)別
傳統(tǒng)的3D重建技術(shù)大多需要連續(xù)的圖片序列或是多視角的圖片,在硬件設(shè)備上一般需要采用雙目攝像頭或者結(jié)構(gòu)光設(shè)備等深度攝像頭,因此在手機(jī)等便攜設(shè)備上往往難以實(shí)現(xiàn);另一方面,深度攝像頭還會(huì)增加生產(chǎn)成本,增加大面積部署3D重建技術(shù)的難度。
基于單幀RGB圖像的3D重建任務(wù)對(duì)原始圖像的需求放松的同時(shí),對(duì)背后的技術(shù)提出了更難的挑戰(zhàn):算法需要從一張彩色圖片中推理出人體或人臉的3D形態(tài),并通過(guò)【光學(xué)透視】【陰影疊加】等基本光學(xué)原則準(zhǔn)確預(yù)測(cè)出各個(gè)關(guān)鍵點(diǎn)在3D空間的位置和朝向,從而得到人體的姿態(tài)或表情信息。
由于對(duì)輸入圖像的要求低,使3D重建技術(shù)將可以利用普通光學(xué)攝像頭作為感知機(jī)具。將來(lái)該技術(shù)將會(huì)使美顏APP同時(shí)具備高度的瘦身功能;商場(chǎng)內(nèi)試衣魔鏡將會(huì)自動(dòng)生成你所想要更換的衣服,大大節(jié)省商場(chǎng)空間的同時(shí)提升用戶體驗(yàn)度。使更多智能應(yīng)用成為可能。
自然場(chǎng)景的人體3D重建技術(shù)應(yīng)用
*三大榜單
此次云從科技在3D人體數(shù)據(jù)集Human3.6M、Surreal和UP-3D上均大幅超越世界紀(jì)錄。該數(shù)據(jù)集是關(guān)于3D人體重建技術(shù)的榜單,加州大學(xué)伯克利、馬普所、Amazon、賓夕法尼亞大學(xué)、北京大學(xué)、浙江大學(xué)、Microsoft Research、法國(guó)國(guó)家信息與自動(dòng)化研究所、Adobe Research等企業(yè)、研究所、大學(xué)都在該榜單的競(jìng)爭(zhēng)隊(duì)列中。
云從科技的算法在Surreal上的surface error從75.4毫米降低到52.7毫米,3D joint error從55.8毫米降低到40.1毫米,Human3.6M上的3D joint error從59.9毫米降低到46.7毫米,算法的執(zhí)行速度從之前的幾十甚至上百毫秒降低到僅需5毫秒。
Human3.6M數(shù)據(jù)集上對(duì)比
Surreal數(shù)據(jù)集上對(duì)比
UP-3D數(shù)據(jù)集上對(duì)比