【
中國安防展覽網(wǎng) 焦點新聞】隨著“和諧社會”、“平安城市”建設(shè)的不斷深入,全國進入了安防設(shè)施建設(shè)的高潮期,監(jiān)控攝像頭已遍布中國大地的每個街頭,晝夜不停地監(jiān)視和錄像。然而,有了相關(guān)視頻不等于就找到了目標信息,查找視頻、分析視頻的工作常常會耗用大量的時間和人力。如何在海量視頻中更方便、更省力地查找到相關(guān)信息呢?現(xiàn)在,隨著安防智能化需求越來越強烈,視頻檢索技術(shù)也得以快速發(fā)展。
視頻檢索技術(shù)意義重大 曲折發(fā)展不斷提升
視頻檢索的重要性 檢索技術(shù)源于互聯(lián)網(wǎng)發(fā)展需求。各類搜索引擎,如Baidu、Google、Bing以及Yahoo等都是以此技術(shù)為基礎(chǔ)的。隨著網(wǎng)絡(luò)帶寬不斷的提高,人們可以更加快捷地將自己采集到的各種多媒體信息進行共享,或者進行多媒體信息的交互,越來越多的信息通過視頻等多媒體的形式展現(xiàn)在互聯(lián)網(wǎng)中,這對以圖像、視頻為代表的多媒體信息檢索技術(shù)提出了越來越高的要求。20世紀90年代初,上開始了對視頻方面的檢索研究。區(qū)別于文字信息檢索,圖像視頻的檢索是建立在圖像視頻內(nèi)容分析的基礎(chǔ)上,所以常稱之為基于內(nèi)容的圖像視頻檢索。1992年,“基于內(nèi)容的視頻檢索”一詞開始使用。
數(shù)字技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,視頻信息也在飛快的增長,電視和電影等需要保存的視頻素材也越來越多,而且每天都在產(chǎn)生大量的視頻信息。對這些多媒體資料的存儲、管理和再利用變得非常困難,需要合適的歸檔體系允許的瀏覽、搜索和檢索。比較通用的方法是采用文本注釋圖像和視頻信息,以基于文本的數(shù)據(jù)庫管理系統(tǒng)進行圖像和視頻檢索。但文本注釋方法對大量的信息不僅費力而且力不從心,對于在存儲的視頻節(jié)目中尋找*的視頻片斷這樣的應(yīng)用需求,比如特定節(jié)目內(nèi)容的搜索、定位就更加困難,基本只能靠人工的觀看、識別和記錄。
此外,許多應(yīng)用場合文字不足以描述具有豐富內(nèi)容的視頻。而且,因為目前大部分的視頻資產(chǎn)還是以模擬形式存放,從現(xiàn)有資源中找出要用的視頻片段,意味著搜查大量的人工索引和可能素材冗長的線性篩選。大型的機構(gòu),例如無線電視臺、有線電視臺以及制作公司有可能遭遇這種頭痛的情況,所有視頻資產(chǎn)豐厚的機構(gòu)同樣面臨這個難題。他們基本上以人工方式管理視頻資產(chǎn),這種人手密集和時間密集的管理模式拖慢了應(yīng)用步伐,增加了成本。
對于開發(fā)利用視頻的機構(gòu),如果能具有、靈活、智能地訪問視頻資源的技術(shù),再加上簡單、經(jīng)濟的方式、及時的通信,必將增加電子商務(wù)應(yīng)用的機會,提供全新的商機。視頻資源豐富的機構(gòu)必須應(yīng)對的挑戰(zhàn)就是如何率地管理這些資產(chǎn),使用戶如何以的速度和便利直觀地搜索視頻,尋找他們所需的準確片段。
視頻檢索技術(shù)原理
十多年來,視頻數(shù)據(jù)在獲取、存儲、操作及傳輸技術(shù)方面取得了重大的理論突破和技術(shù)進步。
視頻數(shù)據(jù)按照由粗到細的順序可以劃分為四個層次結(jié)構(gòu):視頻(Video)、場景(Scene)、鏡頭(Shot)和圖像幀(Frame)。由于一個鏡頭內(nèi)的相鄰幀間的變化不是很大,它們之間的特征差值會限定在某個閾值范圍內(nèi)。
而在鏡頭突變時,突變點前后兩個相鄰幀在內(nèi)容上顯示會有很大的變化,如果特征差值超過了給定的閾值,則意味著出現(xiàn)一個分割邊界。鏡頭的關(guān)鍵幀就是反映該鏡頭中主要信息內(nèi)容的幀圖像。將各鏡頭檢測出來后,對每個鏡頭可提取關(guān)鍵幀,并用關(guān)鍵幀簡潔地表達鏡頭。關(guān)鍵幀數(shù)目的確定是關(guān)鍵幀提取中的一個重要問題,其確定方法可以根據(jù)鏡頭內(nèi)幀的差異進行統(tǒng)計,求出其方差,用方差來衡量鏡頭視覺內(nèi)容的復(fù)雜程度。方差越大,該鏡頭提取的關(guān)鍵幀數(shù)就越多。
從內(nèi)容上對視頻進行搜索,其特點包括:,直接從媒體內(nèi)容中提取信息線索;第二,基于內(nèi)容的檢索是一種近似匹配,這一點與常規(guī)數(shù)據(jù)庫檢索的匹配方法有明顯的不同;第三,動態(tài)特征提取和索引建立可由計算機自動實現(xiàn),這避免了人工描述的主觀性,也大大減少了工作量?;趦?nèi)容檢索時,根據(jù)媒體特征進行相似性匹配檢索的媒體特征有:顏色、紋理、輪廓、形狀、空間約束、動態(tài)、概念、結(jié)構(gòu)描述及其他的圖像信息。
視頻檢索技術(shù)不斷升級提升
目前,從視頻數(shù)據(jù)中提取有效信息的技術(shù)已基本解決,主要面臨的是提高從海量數(shù)據(jù)提取信息的速度。視頻數(shù)據(jù)檢索的提述經(jīng)歷了三個階段:一、有效視頻數(shù)據(jù)提??;二、基于智能視頻分析算法的檢索;三、基于視頻數(shù)據(jù)的元數(shù)據(jù)的檢索。
有效視頻數(shù)據(jù)提取
該方法的技術(shù)基石是圖像分析技術(shù)中的移動偵測技術(shù)。該技術(shù)在業(yè)界已經(jīng)比較成熟。移動偵測我們可以在前端設(shè)備中完成,也可以通過后端處理來執(zhí)行。以24小時錄像來說,鬧市區(qū)場景的錄像可能有1/3左右的錄像是無運動目標;而郊區(qū)場景的錄像可能有2/3左右的錄像是無運動目標,在檢索視頻數(shù)據(jù)時,我們只需要觀看有運動目標的視頻數(shù)據(jù)即可,無論是1/3或2/3,均能顯著降低所需檢索視頻數(shù)據(jù)的大小。
基于智能視頻分析算法的檢索
前面提到,一段24小時的錄像,人工查看即使用4倍速查看也需要6小時,而利用計算機通過智能視頻分析算法進行視頻的自動檢索,檢索的速度則取決于視頻解碼和分析算法的運行速度。我們以對4cif的視頻數(shù)據(jù)執(zhí)行周界防范算法為例,一幀視頻數(shù)據(jù)解碼加上算法執(zhí)行的平均時間可以控制在10ms左右,也就是相當(dāng)于4倍速。同樣四倍速,一個是不知疲倦的計算機,一個是極易疲倦和出錯的人腦。孰優(yōu)孰劣,一目了然。
基于視頻數(shù)據(jù)的元數(shù)據(jù)的檢索
如果我們把1段24小時的錄像,經(jīng)過解碼,智能分析,把獲取到的智能元數(shù)據(jù)都存儲下來,對元數(shù)據(jù)的查詢速度可以達到十秒的量級。
一段24小時錄像文件的查詢速度提升過程:人工,正常速度查詢,24小時;人工,四倍速查詢,6小時;視頻濃縮后,人工四倍速查詢,3小時左右;視頻濃縮后,基于智能分析算法查詢,3小時左右;基于視頻數(shù)據(jù)的元數(shù)據(jù)查詢,十秒量級。
可以看到,后一步才是質(zhì)的提升,檢索速度量級的飛躍。盡管如此,視頻數(shù)據(jù)的元數(shù)據(jù)的檢索也并不是無缺的,仍有一些問題等待解決。
移動偵測算法雖然比較成熟,但對于飛蟲干擾、燈光干擾、樹葉抖動等問題目前還沒有特別有效的解決辦法;基于智能分析算法的檢索,比如車牌識別、人臉識別,對視頻數(shù)據(jù)的場景要求比較高,普通的治安監(jiān)控視頻基本無法執(zhí)行這種分析。對于視頻場景適應(yīng)性相對較好的周界防范,行為分析算法來說,雖然能較為準確分析出目標,但是對于目標進一步的分類,比如人、物、非機動車、機動車、目標的屬性特征,比如顏色、紋理、形狀等,目前還是業(yè)界面臨的技術(shù)難題。
雖然有上述兩大難題,隨著元數(shù)據(jù)的標準化,以及前端設(shè)備實時產(chǎn)生元數(shù)據(jù)和后處理產(chǎn)生元數(shù)據(jù)兩種機制和產(chǎn)品的并存,基于元數(shù)據(jù)的檢索必然會成為海量視頻數(shù)據(jù)檢索的主流。