這篇文章將教會(huì)你如何運(yùn)用 Go 語言實(shí)現(xiàn)人臉識(shí)別
▌前言
如今,神經(jīng)網(wǎng)絡(luò)已經(jīng)非常流行,人們將它用于各種任務(wù),特別是人臉識(shí)別應(yīng)用。
最近,我用一個(gè)以 Go 語言為后端的軟件,實(shí)現(xiàn)了一個(gè)人臉識(shí)別項(xiàng)目。它能夠識(shí)別出上傳照片中的人像 (如流行歌手)是誰。這聽起來不錯(cuò),我決定試一下也給你們介紹一下項(xiàng)目的整個(gè)過程。
需要說明的是,我盡可能地將所需的系統(tǒng)配置控制在較低水平,以便更多用戶可以通過使用便宜的服務(wù)器來進(jìn)行安裝,而這也是為什么實(shí)現(xiàn)過程不使用 CUDA 或 GPU 的原因——雖然你現(xiàn)在可以很容易地租用這樣的服務(wù)器,但它需要很高的成本,從而也會(huì)將很多潛在的使用者拒之門外。如果它只需要 CPU 而不需要外部依賴就能工作,情況會(huì)好很多。
▌選擇合適的語言
如果你詢問數(shù)據(jù)科學(xué)家或者那些有神經(jīng)網(wǎng)絡(luò)實(shí)踐經(jīng)驗(yàn)的工作者,幾乎所有人都會(huì)建議你使用 Python 語言來解決機(jī)器學(xué)習(xí)任務(wù)。考慮到語言社區(qū),可用庫的數(shù)量,語言的簡(jiǎn)單性等,Python 語言確實(shí)是一個(gè)明智的選擇。此外,在 Python 中,你還可以通過一些精彩的實(shí)例說明和文檔來找到一些受歡迎的人臉識(shí)別庫。
然而,這一次,我決定選用 Go 語言,主要有幾以下幾個(gè)原因:
我的論壇是用 Go 語言編寫的,我個(gè)人也真的很喜歡以 single-binary 為后端所帶來的便捷性。因此,在后端部署并整合人臉識(shí)別過程,而不需要 Python 實(shí)現(xiàn)的一些依賴和 IPC,這是很棒的。
Go 語言通常比 Python 更快,消耗的內(nèi)存更少。任何高性能 Python 庫的關(guān)鍵部分都是用 C / C++ 語言編寫的,因此,無論如何你都會(huì)有 Python VM 的開銷。我偏愛于更快的語言,除非這種語言會(huì)嚴(yán)重影響開發(fā)時(shí)間。我不會(huì)用 C或C++ 作為 Web 應(yīng)用程序編寫的主要語言,但 Go語言很好,它幾乎和 Python 一樣簡(jiǎn)單。
我沒有在 Go 語言中找到人臉識(shí)別的有關(guān)庫,因此用 Go 語言實(shí)現(xiàn)這樣一個(gè)應(yīng)用,對(duì)于整個(gè)社區(qū)而言,都是一件有趣又有幫助的事。
▌選擇合適的框架
如前所述,神經(jīng)網(wǎng)絡(luò)以及相應(yīng)的實(shí)現(xiàn)框架如今正被廣泛地使用。僅在計(jì)算機(jī)視覺領(lǐng)域,可用的框架就有 Caffe,Torch,TensorFlow 等。
但是,有一個(gè)非常酷的機(jī)器學(xué)習(xí)庫 —— dlib 庫,一下就吸引了我的注意力。首先,它是用 C ++ 語言編寫的,因此你可以使用 cgo 輕松地創(chuàng)建 Go 語言綁定。其次,在 Wild benchmarks 基準(zhǔn)的人臉識(shí)別任務(wù)上,據(jù)說它能實(shí)現(xiàn) 99.38% 的準(zhǔn)確性,這聽起來是很不可思議的。再者,現(xiàn)在一些流行的人臉識(shí)別庫 face_recognition 和 openface 在底層都使用 dlib 庫,因此它在該任務(wù)上會(huì)是一個(gè)非常好的選擇。
▌安裝依賴項(xiàng)
一旦框架確定下來,那么我們要如何在機(jī)器上開發(fā)并部署這個(gè)項(xiàng)目呢?首先,C++ 依賴項(xiàng)的安裝將會(huì)有很大的困難,因?yàn)槟銦o法通過簡(jiǎn)便的“go get”或“pip install”命令來實(shí)現(xiàn)。要么只能希望你的操作系統(tǒng)存儲(chǔ)庫中提供這些依賴庫,要么你只能通過繁瑣的編譯過程來安裝,這樣的話,這個(gè)問題就更加令人討厭,因?yàn)橛性S多人都在 dlib 編譯過程碰到問題。
如果你不得不通過編譯過程來安裝,那么可以參考一下下面的教程,也許會(huì)有幫助
https://gist.github.com/ageitgey/629d75c1baac34dfa5ca2a1928a7aeaf
幸運(yùn)的是,我們有更好的選擇:如果用戶的目標(biāo)系統(tǒng)已知,我們可以構(gòu)建 dlib 庫的二進(jìn)制安裝包來大大簡(jiǎn)化整個(gè)過程。說到服務(wù)器軟件,Ubuntu 幾乎是系統(tǒng)標(biāo)配,因此首先要保證你能支持這個(gè)系統(tǒng)。
Ubuntu的標(biāo)準(zhǔn)倉庫中自帶有 dlib庫,但其版本太舊了:人臉識(shí)別僅支持 dlib19.3 版本,所以我們需要構(gòu)建自己的包。我為 Ubuntu 16.04 和 18.04 創(chuàng)建了 PPA (自定義存儲(chǔ)庫),安裝過程非常簡(jiǎn)單,如下:
sudo add-apt-repository ppa:kagamih/dlibsudo apt-get updatesudo apt-get install libdlib-dev
以上命令將安裝最新的 dlib19.15 版本及 Intel 的數(shù)學(xué)核心庫,對(duì)于 Intel 處理器而言,這似乎是標(biāo)準(zhǔn) BLAS 和 LAPACK 接口的最快實(shí)現(xiàn)。
對(duì)于 Debian sid 和 Ubuntu 18.10 (尚未發(fā)布) 而言,標(biāo)準(zhǔn)倉庫中同樣提供了 dlib 的安裝過程,你只需要如下命令:
sudo apt-get install libdlib-dev libopenblas-dev
這將使用 OpenBLAS 來代替 MKL,實(shí)現(xiàn)的速度同樣非????;蛘?你也可以通過 enable non-free package 并安裝 libmkl-dev 來實(shí)現(xiàn)。
我們還需要 libjpeg 來加載 JPEG 圖像:在 Ubuntu 上安裝 libjpeg-turbo8-dev 包,或在 Debian 上安裝 libjpeg62-turbo-dev。
到目前為止,我沒有給出其他系統(tǒng)的安裝說明,如果你在安裝 dlib 過程中碰到問題,可以訪問我的 github 希望能為你提供合理有效的安裝建議。
GitHub 地址:
https://github.com/Kagami/go-face
此外,我還考慮為 dlib 庫提供 Docker 鏡像 (其中有少部分內(nèi)容已存在),許多具有復(fù)雜依賴關(guān)系的項(xiàng)目都傾向于使用這種分布式方法。但在我看來,一個(gè)本機(jī)包能夠?yàn)橛脩籼峁└玫捏w驗(yàn),你不需要在控制臺(tái)編寫長(zhǎng)命令,也不需要處理 sandbox 環(huán)境中的內(nèi)容。
▌寫入依賴庫
當(dāng)前人臉識(shí)別庫地工作原理通常是:通過為照片上的每張人臉返回一組數(shù)字 (矢量嵌入或描述符) 來比較區(qū)分它們,并通過比較這些數(shù)字來找到圖像中人的名字 (通常是通過計(jì)算歐幾里德距離向量,得到屬于同一個(gè)人的兩張人臉的最小距離)。這個(gè)概念這次就不在這里贅述了。
創(chuàng)建圖像中人臉的原始代碼并不是個(gè)重要的問題,這個(gè)過程幾乎是遵循官方的例子就可以了。你可以查看 facerec.cc 及其相應(yīng)的頭文件 facerec.h,其中定義了 5 個(gè)函數(shù)和幾個(gè)在 Go 語言和 dlib 庫之間的交互結(jié)構(gòu)。
在這里,雖然 dlib 庫支持所有流行的圖像格式,但它只能從文件中加載它們。這將導(dǎo)致混亂,因?yàn)槲覀兺ǔV粫?huì)將圖像保存在內(nèi)存中并將其寫入臨時(shí)文件。因此,在這里我使用 libjpeg 來編寫自己的圖像加載器。由于大多數(shù)照片都以該格式存儲(chǔ)的,因此這種格式的加載器足以勝任大部分的需要,以后有需要我還會(huì)添加其他格式的圖像加載器。
我把 C++ 和 Go 語言的連接層放在 face.go 中。它提供了 Face 結(jié)構(gòu),用于保存圖像中人臉的坐標(biāo)及其描述符,并通過 Recognizer 為所有操作提供接口,如初始化和實(shí)際識(shí)別。
一旦我們有了描述符,我們能做什么呢?在最簡(jiǎn)單的情況下,你可以通過比較未知描述符與所有已知描述符之間的歐幾里德距離。但這并不完美,即使是當(dāng)前最先進(jìn)的人臉識(shí)別技術(shù)也會(huì)得到錯(cuò)誤的答案。如果想稍微改善一下結(jié)果,我們需要使用每個(gè)人的許多圖像,并檢查這些圖像中是否有非常接近于所提供的人臉。
這也正是分類器 classify.cc 所做的工作。首先,計(jì)算距離,然后對(duì)這些距離進(jìn)行排序,計(jì)算同一個(gè)人在前 10 個(gè)最小距離中的點(diǎn)擊數(shù)。)
諸如支持向量機(jī),將會(huì)在這個(gè)任務(wù)上提供更好的算法性能。 dlib 甚至為訓(xùn)練此類模型提供了便捷的 API。很少有文章會(huì)提到 SVM 在大型數(shù)據(jù)集上的性能,因此我打算先在大型集合上測(cè)試它。
▌使用
下面得到的結(jié)果你可以在 github 中查看:
import "github.com/Kagami/go-face"
GitHub 地址:
https://github.com/Kagami/go-face
相關(guān)的所有結(jié)構(gòu)和方法概述,請(qǐng)參閱 GoDoc 文檔,主要包括以下幾個(gè)內(nèi)容:
初始化識(shí)別器
識(shí)別所有的已知圖像并收集描述符
將具有相應(yīng)類別的已知描述符傳遞給識(shí)別器
獲取未知圖像的描述符
對(duì)其類別進(jìn)行分類
以下是一個(gè)工作示例,來說明了上述的所有步驟:
package mainimport ( "fmt" "log" "path/filepath" "github.com/Kagami/go-face")// Path to directory with models and test images. Here it's// assumed it points to the// clone.const dataDir = "testdata"http:// This example shows the basic usage of the package: create an// recognizer, recognize faces, classify them using few known// ones.func main() { // Init the recognizer. rec, err := face.NewRecognizer(dataDir) if err != nil { log.Fatalf("Can't init face recognizer: %v", err) } // Free the resources when you're finished. defer rec.Close() // Test image with 10 faces. testImagePristin := filepath.Join(dataDir, "pristin.jpg") // Recognize faces on that image. faces, err := rec.RecognizeFile(testImagePristin) if err != nil { log.Fatalf("Can't recognize: %v", err) } if len(faces) != 10 { log.Fatalf("Wrong number of faces") } // Fill known samples. In the real world you would use a lot of // images for each person to get better classification results // but in our example we just get them from one big image. var samples []face.Descriptor var cats []int32 for i, f := range faces { samples = append(samples, f.Descriptor) // Each face is unique on that image so goes to its own // category. cats = append(cats, int32(i)) } // Name the categories, i.e. people on the image. labels := []string{ "Sungyeon", "Yehana", "Roa", "Eunwoo", "Xiyeon", "Kyulkyung", "Nayoung", "Rena", "Kyla", "Yuha", } // Pass samples to the recognizer. rec.SetSamples(samples, cats) // Now let's try to classify some not yet known image. testImageNayoung := filepath.Join(dataDir, "nayoung.jpg") nayoungFace, err := rec.RecognizeSingleFile(testImageNayoung) if err != nil { log.Fatalf("Can't recognize: %v", err) } if nayoungFace == nil { log.Fatalf("Not a single face on the image") } catID := rec.Classify(nayoungFace.Descriptor) if catID
運(yùn)行下面命令:
mkdir -p ~/go && cd ~/go # Or cd to your $GOPATHmkdir -p src/go-face-example && cd src/go-face-examplegit clone https://github.com/Kagami/go-face-testdata testdataedit main.go # Paste example codego get .../../bin/go-face-example
由于在 dlib 的代碼中大量使用了 C++ 模板,因此需要一些時(shí)間來編譯 go-face (在我的 i7 上大約需要運(yùn)行 1 分鐘)。 幸運(yùn)的是,Go 語言能夠構(gòu)建輸出緩存,這樣可以在今后構(gòu)建的時(shí)候速度更快。
上面的示例輸出應(yīng)打印“Nayoung”,表示能夠正確識(shí)別出未知圖像。
▌模型
go-face 需要 shape_predictor_5_face_landmarks.dat 和
dlib_face_recognition_resnet_model_v1.dat 模型才能開始工作。你可以從 dlib-models 倉庫中下載它們:
mkdir models && cd modelswget https://github.com/davisking/dlib-models/raw/master/shape_predictor_5_face_landmarks.dat.bz2bunzip2 shape_predictor_5_face_landmarks.dat.bz2wget https://github.com/davisking/dlib-models/raw/master/dlib_face_recognition_resnet_model_v1.dat.bz2bunzip2 dlib_face_recognition_resnet_model_v1.dat.bz2
此外,當(dāng)你要運(yùn)行示例代碼時(shí),還可以通過 go-face-testdata 倉庫來訪問這些模型。
▌未來的工作
我對(duì)結(jié)果非常滿意,通過簡(jiǎn)單的 API,得到不錯(cuò)的識(shí)別結(jié)果,還可以輕松嵌入到 Go 的應(yīng)用程序中。當(dāng)然,還有需要改進(jìn)的地方:
為了追求簡(jiǎn)單性和速度,在創(chuàng)建描述符時(shí),go-face 無法對(duì)圖像進(jìn)行一些預(yù)處理,如抖動(dòng)。但是,增加圖像預(yù)處理操作是很有必要的,因?yàn)樗赡軙?huì)提高識(shí)別的性能。
Dlib 庫支持很多圖像格式 (如 JPEG,PNG,GIF,BMP,DNG),但是 go-face 目前只能實(shí)現(xiàn) JPEG 格式,未來的工作我們希望可以支持更多的格式。
正如 dlib 的作者 Davis 所建議的,相比于搜索最小距離,采用多類 SVM 可能會(huì)得到更好的分類結(jié)果,因此還需要進(jìn)行額外的測(cè)試驗(yàn)證。
在 go-face 中,除非真的需要,不然我盡量不復(fù)制值,但實(shí)際上它還測(cè)試過大樣本 (10,000+人臉數(shù)據(jù)集) 的測(cè)試性能,可能存在一些瓶頸,有待日后完善。
從人臉提取特征向量是一個(gè)強(qiáng)大的概念,因?yàn)槟悴恍枰占约旱挠?xùn)練數(shù)據(jù),這也是一項(xiàng)非常艱巨的任務(wù) (Davis 曾提到創(chuàng)建 dlib 中 ResNet 模型所用到的 300 萬張人臉數(shù)據(jù)集),但為了獲得更高的識(shí)別性能這可能也是無法避免的,因此值得為自己模型的訓(xùn)練提供相應(yīng)的工具。
原文標(biāo)題:這一次,我拒絕了Python,選擇了Go
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):AI科技大本營】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。