一個典型的基于視頻圖像的人臉識別系統(tǒng)一般都是自動檢測人臉區(qū)域,從視頻中提取特征,最后如果人臉存在則識別出人臉的身份。在視頻監(jiān)控、信息安全和出入控制等應(yīng)用中,基于視頻的人臉識別是一個非常重要的問題,也是目前人臉識別的一個熱點和難點?;谝曨l比基于靜態(tài)圖像更具優(yōu)越性,因為 Bruce 等人和 Knight 等人已證明,當人臉被求反或倒轉(zhuǎn)時,運動信息有助于(熟悉的)人臉的識別。
雖然視頻人臉識別是基于靜態(tài)圖像的人臉識別的直接擴展,但一般認為視頻人臉識別算法需要同時用到空間和時間信息,這類方法直到近幾年才開始受到重視并需要進一步的研究和發(fā)展。
視頻人臉識別遇到的困難和挑戰(zhàn),具體來說有以下幾種:
1、視頻圖像質(zhì)量比較差:視頻圖像一般是在戶外(或室內(nèi),但是采集條件比較差)獲取的,通常沒有用戶的配合,所以視頻人臉圖像經(jīng)常會有很大的光照和姿態(tài)變化。另外還可能會有遮擋和偽裝。
2、人臉圖像比較小:同樣,由于采集條件比較差,視頻人臉圖像一般會比基于靜態(tài)圖像的人臉識別系統(tǒng)的預設(shè)尺寸小。小尺寸的圖像不但會影響識別算法的性能,而且還會影響人臉檢測,分割和關(guān)鍵點定位的精度,這必然會導致整個人臉識別系統(tǒng)性能的下降。
視頻人臉識別起源于基于靜態(tài)圖像的人臉識別,即識別系統(tǒng)自動的檢測和分割出人臉,然后用基于靜態(tài)圖像的識別方法進行識別。對這類方法的一個提高是加入了人臉跟蹤。在這類系統(tǒng)中,通過利用姿態(tài)和從視頻中估計到的深度信息合成一個虛擬的正面人臉。這個階段的另外一個能提高識別率的方法是利用視頻中充裕的幀圖像,基于每幀圖像的識別結(jié)果,使用“投票”機制。投票方法可以是確定的,但是概率投票方法一般來說更好。投票機制的一個缺點是計算結(jié)果的代價比較昂貴。
視頻人臉識別的第二個發(fā)展階段是利用多模態(tài)信息。因為人類一般會利用多種信息識別人的身份,所以一個多模態(tài)系統(tǒng)將比只利用人臉的識別系統(tǒng)性能更好。更重要的是利用多模態(tài)信息提供了一種方法,它能全面解決那些只靠人臉無法識別的任務(wù)。例如,在一個完全沒有配合的環(huán)境(比如搶劫),歹徒的臉一般是蒙著的,這時唯一能進行無人臉識別的方法就是分析歹徒軀體的運動特性。除了指紋,人臉和聲音是最常用于身份識別的信息。它們已經(jīng)被用于很多多模態(tài)身份識別系統(tǒng)。 1997 年以來,每兩年,就會召開一個專門關(guān)于基于視頻和語音身份識別的國際會議。
最近幾年,視頻人臉識別進入第三個發(fā)展階段,這個階段方法的特點是同時采用空間信息(在每幀中)和時間信息(比如人臉特征的運動軌跡)。區(qū)別于概率投票方法的一個很大的不同之處在于,此類方法是在時間和空間的聯(lián)合空間中描述人臉和識別人臉的。
視頻圖像的一個非常重要的特性是它的時間連續(xù)性,以及由此產(chǎn)生的人臉信息的不確定性。在人臉跟蹤和識別中利用時間信息是視頻人臉識別算法和基于靜態(tài)圖像的人臉識別算法的最大區(qū)別。
目前這類算法大致可分為兩類:
1、 跟蹤 - 然后 - 識別,這類方法首先檢測出人臉,然后跟蹤人臉特征隨時間的變化。當捕捉到一幀符合一定標準(大小,姿勢)的圖像時,用基于靜態(tài)圖像的人臉識別算法進行識別。這類方法中跟蹤和識別是單獨進行的,時間信息只在跟蹤階段用到。識別還是采用基于靜態(tài)圖像的方法,沒用到時間信息。
這種方法說白了其實就是,在檢測到人臉之后,對其進行跟蹤,找到某個人在一段時間內(nèi)出現(xiàn)的所有幀中,最接近正臉且最清晰的圖片,然后對其進行識別。省去了“人臉擺正”的過程。
2、 跟蹤 - 且 - 識別,這類方法中,人臉跟蹤和識別是同時進行的,時間信息在跟蹤階段和識別階段都用到。
原文標題:基于“視頻圖像”的人臉識別算法概述
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。