原文來源:arXiv
作者:Adrian Bulat、Georgios Tzimiropoulos
「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA
現(xiàn)如今,人臉識(shí)別在實(shí)際生活中有著越來越多的應(yīng)用??墒?對(duì)于一些低分辨率的人臉圖像來說,如何對(duì)其中的人臉特征點(diǎn)進(jìn)行精確定位是一個(gè)挑戰(zhàn)。最近,英國諾丁漢大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室的科學(xué)家們提出了一種Super-FAN,這是首個(gè)集成人臉超分辨率和特征點(diǎn)定位的端到端系統(tǒng)。能夠提高低分辨率人臉圖像的質(zhì)量,同時(shí)還能夠?qū)D像上的人臉特征點(diǎn)進(jìn)行精確定位。
本文提出了兩個(gè)具有挑戰(zhàn)性的任務(wù):提高低分辨率人臉圖像的質(zhì)量,并精確定位這些低分辨率圖像上的人臉特征點(diǎn)。為此,我們做出了以下5個(gè)貢獻(xiàn):
1. 我們提出了Super-FAN:第一個(gè)能夠同時(shí)解決這兩個(gè)任務(wù)的端到端系統(tǒng),即改善人臉分辨率和檢測人臉特征點(diǎn)。Super-FAN的新穎性在于:通過將一個(gè)人臉對(duì)齊(face alignment)的子網(wǎng)絡(luò)集成到熱圖回歸(heatmap regression)中,并優(yōu)化新的熱圖損失(heatmap loss),從而將結(jié)構(gòu)信息整合到基于GAN的超分辨率算法(GAN-based super-resolution algorithm)中。
2. 我們通過在正面圖像(如先前的研究)和整體人臉姿勢光譜上,以及在合成低分辨率圖像(如先前的研究)和現(xiàn)實(shí)世界的圖像上,都顯示出良好的結(jié)果,從而說明了訓(xùn)練這兩個(gè)網(wǎng)絡(luò)的好處。
3. 我們通過提出一種新的基于殘差的架構(gòu),改進(jìn)了人臉超分辨率最先進(jìn)的技術(shù)。
4. 定量地看,我們大大提高了人臉超分辨率和人臉對(duì)齊的最先進(jìn)技術(shù)。
5. 定性地看,我們首次在現(xiàn)實(shí)世界的低分辨率圖像上得到良好的結(jié)果,如圖1所示。
圖1:我們的系統(tǒng)在來自WiderFace的真實(shí)低分辨率人臉上生成的一些視覺效果的樣本圖片。
本文的目的是改進(jìn)非常低分辨率的人臉圖像的質(zhì)量和理解。這在許多應(yīng)用程序中很重要,比如人臉編輯監(jiān)視/安全。在質(zhì)量方面,我們的目標(biāo)是提高分辨率,并恢復(fù)現(xiàn)實(shí)世界低分辨率人臉圖像的細(xì)節(jié),如圖1的第一行所示;該任務(wù)也被稱為“人臉超分辨率(face super-resolution)”(當(dāng)輸入的分辨率太小時(shí),該任務(wù)有時(shí)被稱為“人臉幻覺(face hallucination)”)。
在理解方面,我們希望通過使用語義(semantic meaning)定位一組預(yù)定義的人臉特征點(diǎn)(如鼻尖、眼角),從而提取中高級(jí)的人臉信息;這個(gè)任務(wù)也被稱為“人臉對(duì)齊(face alignment)”。
試圖同時(shí)解決這兩項(xiàng)任務(wù)實(shí)際上是一個(gè)“先有雞還是先有蛋”的問題:一方面,能夠檢測到人臉特征點(diǎn)已經(jīng)被證明有利于人臉超分辨率;然而,如何在任意姿勢的低分辨率人臉中完成它仍是一個(gè)尚待解決的問題。另一方面,如果能夠在整體人臉姿勢光譜上有效地解決低質(zhì)量和低分辨率的人臉,那么人臉特征點(diǎn)就可以被精確定位。
因?yàn)楹茈y在非常低分辨率的人臉中檢測特征點(diǎn)(如在本研究中所注意和驗(yàn)證的那樣),當(dāng)人臉特征點(diǎn)定位不良時(shí),基于此想法的先前的超分辨率方法會(huì)產(chǎn)生帶有偽像(artifact)的模糊圖像。
圖2:本文所提出的Super-FAN架構(gòu)包含三個(gè)相連的網(wǎng)絡(luò):第一個(gè)是剛剛提出的超分辨率網(wǎng)絡(luò)。第二個(gè)網(wǎng)絡(luò)是基于WGAN的鑒別器,用于區(qū)分超分辨率和原始HR圖像。第三個(gè)網(wǎng)絡(luò)是FAN,這是一個(gè)人臉對(duì)齊網(wǎng)絡(luò),用于定位超分辨率人臉圖像上的面部特征點(diǎn),并通過新引入的熱圖失真來提高超分辨率。
我們的主要貢獻(xiàn)是證明即使對(duì)于完全任意的姿勢(例如頭像圖像,參見圖1和圖5),實(shí)際上也可以共同執(zhí)行人臉特征點(diǎn)定位和超分辨率,
總而言之,我們的貢獻(xiàn)是:
1. 我們提出了Super-FAN:第一個(gè)能夠同時(shí)解決人臉超分辨率和人臉對(duì)齊的端到端系統(tǒng)。它通過熱圖回歸(heatmap regression)將人臉特征點(diǎn)定位的子網(wǎng)絡(luò)集成到基于GAN的超分辨率網(wǎng)絡(luò)中,并結(jié)合了新的熱圖損失(heatmap loss)。參見圖2。
2. 我們展示了在任意人臉姿勢的合成生成和現(xiàn)實(shí)世界低分辨率人臉上共同訓(xùn)練這兩個(gè)網(wǎng)絡(luò)的好處。
3. 我們還提出了一種改進(jìn)的基于殘差的超分辨率架構(gòu)。
4. 定量地看,我們首次報(bào)告了LS3D-W數(shù)據(jù)集上整體人臉姿勢光譜的結(jié)果,并且在超分辨率和人臉對(duì)齊方面顯示出了巨大的進(jìn)步。
5. 定性地看,我們首次在從WiderFace數(shù)據(jù)集獲取的現(xiàn)實(shí)世界低分辨率人臉圖像上得到良好的視覺效果(參見圖1和圖5)。
接下來,我們來介紹一下在圖像和人臉超分辨率以及人臉特征點(diǎn)定位(facial landmark localization)方面的相關(guān)研究。
圖3:本文所提出的超分辨率架構(gòu)(左)與《使用生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)的照片逼真的單一圖像超分辨率》中描述的架構(gòu)(右)之間的比較。
圖像超分辨率
早期使用CNN進(jìn)行的超分辨率嘗試使用的是標(biāo)準(zhǔn)Lp損失進(jìn)行訓(xùn)練的,結(jié)果導(dǎo)致模糊的超分辨圖像。為了緩解這一問題,論文《實(shí)時(shí)風(fēng)格遷移和超分辨率的感知損失》的作者提出了一個(gè)關(guān)于特征映射的MSE,提出了感知損失(perceptual loss),而不是在像素上(超分辨率和參考真實(shí)HR圖像之間)使用MSE。值得注意的是,我們也在我們的方法中使用了感知損失。
最近在《使用生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)的照片逼真的單一圖像超分辨率》中,作者提出了一種基于GAN的方法,該方法使用鑒別器在超分辨率和原始HR圖像以及感知損失之間進(jìn)行區(qū)分。在《Enhancenet:通過自動(dòng)紋理合成的單一圖像超分辨率》中,作者提出了一種基于補(bǔ)丁的紋理損失,以改進(jìn)重構(gòu)質(zhì)量。
值得注意的是,前面所提到的所有圖像超分辨率方法都可以應(yīng)用于所有類型的圖像,因此不包含特定于人臉的信息,像在我們的研究中所提出的那樣。此外,在大多數(shù)情況下,其目標(biāo)是對(duì)于給定的圖像,生成具有良好分辨率(通常為128×128)的高保真圖像,而面部超分辨率方法通常在具有非常低分辨率(16×16或32×32)的面部上給出報(bào)告結(jié)果。
從上述所有方法中,我們的研究與《實(shí)時(shí)風(fēng)格遷移和超分辨率的感知損失》和《使用生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)的照片逼真的單一圖像超分辨率》更為密切相關(guān)。特別是,我們的貢獻(xiàn)之一是描述一種改進(jìn)的基于GAN的超分辨率體系結(jié)構(gòu),我們將其用作一個(gè)強(qiáng)大的基線,在其基礎(chǔ)上構(gòu)建了我們的集成人臉超分辨率和對(duì)齊網(wǎng)絡(luò)(alignment network)。
人臉超分辨率
最近,在《通過鑒別式生成式網(wǎng)絡(luò)實(shí)現(xiàn)的極端超分辨人臉圖像》的研究中,采用基于GAN的方法來分辨具有非常低分辨率的人臉圖像。該方法顯示,對(duì)于來自CelebA數(shù)據(jù)集的正面和預(yù)先對(duì)齊的人臉運(yùn)行結(jié)果良好。
在《通過變革性的鑒別式自編碼器得到極其低分辨率的未對(duì)齊和含噪聲的人臉圖像》中,作者提出了一個(gè)兩步解碼—編碼器—解碼器的架構(gòu),它包含一個(gè)空間轉(zhuǎn)換網(wǎng)絡(luò)以撤銷轉(zhuǎn)換、縮放和旋轉(zhuǎn)失準(zhǔn)(rotation misalignments)。
他們的方法在來自CelebA的正面數(shù)據(jù)集中的預(yù)先對(duì)齊的、合成生成的LR圖像上進(jìn)行了測試。值得注意的是,我們的網(wǎng)絡(luò)并不試圖撤銷失準(zhǔn),而是簡單地學(xué)會(huì)如何進(jìn)行超分辨,并同時(shí)通過集成一個(gè)特征點(diǎn)定位子網(wǎng)絡(luò)解決人臉結(jié)構(gòu)問題。
圖4:LS3D-W中的視覺效果
與我們的方法最相似的研究是,以交替的方式執(zhí)行人臉超分辨率和密集的人臉對(duì)應(yīng)。他們的算法在PubFig和Helen的正面人臉圖像上進(jìn)行了測試,而在真實(shí)圖像(總共4張)上的測試結(jié)果少有成功。
《用于人臉幻覺的的深度級(jí)聯(lián)網(wǎng)絡(luò)》與我們研究工作的主要區(qū)別在于,密集對(duì)應(yīng)算法(dense correspondence algorithm)不是基于神經(jīng)網(wǎng)絡(luò),而是基于級(jí)聯(lián)回歸,是從超分辨率網(wǎng)絡(luò)中進(jìn)行分離式預(yù)學(xué)習(xí)的,并保持不變。
同樣地,《用于人臉幻覺的的深度級(jí)聯(lián)網(wǎng)絡(luò)》研究也面臨著同樣的問題,即必須檢測模糊人臉上的特征標(biāo)志,這在算法的第一次迭代中尤為明顯。相反,我們建議以端到端的方式聯(lián)合學(xué)習(xí)超分辨率和面部特征點(diǎn)定位,并僅用單次對(duì)焦來完成圖像的超分辨和人臉特征點(diǎn)的定位。如圖2所示,正像我們所展示的那樣,這會(huì)導(dǎo)致性能的大幅提升,并在整個(gè)面部姿勢譜中生成高保真度圖像。
圖5:由我們的系統(tǒng)、SR-GAN和CBN在來自WiderFace的真實(shí)低分辨率人臉上所產(chǎn)生的結(jié)果。
值得注意的是,我們的研究成果超越了現(xiàn)有的技術(shù),并且通過定量和定性兩種方式,對(duì)超分辨率和人臉特征點(diǎn)定位進(jìn)行了嚴(yán)格評(píng)估。在此之前,人們主要利用正面的數(shù)據(jù)集(例如:CelebA、Helen、LFW和BioID)得出實(shí)驗(yàn)結(jié)論,與之相反,我們在實(shí)驗(yàn)中所使用的低分辨率圖像是通過新創(chuàng)建的LS3D-W平衡數(shù)據(jù)集生成的,其中每個(gè)面部姿勢都對(duì)應(yīng)偶數(shù)張人臉圖像。
我們對(duì)取自WiderFace數(shù)據(jù)集的200張真實(shí)低分辨率圖像進(jìn)行了定性分析,并得出了相應(yīng)結(jié)論。據(jù)我們所知,這是利用真實(shí)圖像對(duì)人臉超分辨率算法進(jìn)行的一次最全面的評(píng)估。
人臉對(duì)齊
近期,一項(xiàng)有關(guān)人臉對(duì)齊的評(píng)估表明,當(dāng)分辨率降至30像素以下時(shí),采用標(biāo)準(zhǔn)人臉分辨率(198×192)訓(xùn)練的中、大型姿勢網(wǎng)絡(luò)的最優(yōu)性能分別下降超過15%和30%。這一評(píng)估結(jié)果是我們開展此次研究的主要目標(biāo)之一。
由于我們的目標(biāo)不是提出一種新的人臉對(duì)齊架構(gòu),因此我們采用人臉對(duì)齊網(wǎng)絡(luò)(Face Alignment Network,FAN),該網(wǎng)絡(luò)由沙漏網(wǎng)絡(luò)(Hourglass network)與殘差塊(residual block)構(gòu)建而成。如圖所示,FAN對(duì)任意面部姿勢都能夠表現(xiàn)出優(yōu)異的性能,并獲得清晰的圖像。
正如我們在文中所展示的那樣,一個(gè)被專門訓(xùn)練并用于將低分辨率圖像中的特征點(diǎn)進(jìn)行定位的FAN,性能表現(xiàn)欠佳。我們的一項(xiàng)貢獻(xiàn)就是表明,當(dāng)FAN進(jìn)行集成并與超分辨率網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練時(shí),FAN可以以高精確度定位低分辨率圖像中的面部特征點(diǎn)。
我們提出了Super-FAN:這是首個(gè)集成人臉超分辨率和特征點(diǎn)定位的端到端系統(tǒng)。我們通過集成子網(wǎng)絡(luò)進(jìn)行人臉對(duì)齊,并對(duì)新的熱圖損失進(jìn)行優(yōu)化,從而將面部結(jié)構(gòu)信息整合至超分辨率體系結(jié)構(gòu)中。我們展示了最先進(jìn)的人臉超分辨率和全臉姿勢對(duì)齊。不僅如此,我們還首次在現(xiàn)實(shí)世界中的低分辨率人臉圖像上顯示出了良好的效果。
原文鏈接:https://arxiv.org/pdf/1712.02765.pdf
來源:人工智能學(xué)家