国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

新智元
+ 關注
2022-03-09 11:39
1572次閱讀

編輯:LRS

【新智元導讀】用GAN模型進行圖像合成有一個顯著缺點,就是生成的圖像不可控制,經常是摘個眼睛把性別都變了。最近Adobe提出新一代GAN模型,能夠自由控制35個人臉屬性的變化,而不會互相干擾。

圖像合成中的一個重要問題就是圖像內的糾纏(entanglement)問題。

比如把一個人臉上的胡子全都自動去掉,或者完美地貼上胡子,最后生成的圖片或多或少都有違和感,因為胡子和人臉存在某種糾纏的關系。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

并且不同物體間的合成、去除的難度也不盡相同。

舉幾個生活中的例子就很好理解了,從牛肉面里挑出來香菜,和挑牛肉出來的難度相差很大;想從咖啡里面把糖都挑出來,那就簡直是不可能完成的任務了。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

有些東西天生就是捆綁在一起的,想要完美的新建、合成一張新圖像,機器學習模型必須能夠學會創建各種各樣的物體,并且最好能夠分離出不同的特征和概念。

如果模型能把年齡、性別、頭發顏色、膚色、情緒等分出來,那你就可以在一個框架中隨意修改這些組件,更加靈活地控制生成圖像,在更加細化的水平上創建和編輯人臉等圖像,能夠完美避開圖像的糾纏關系。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

在所有實體最大糾纏的情況下,圖像實際上進行的就是分類任務,例如模型識別出是Lady Gaga的一張照片。

中等糾纏情況下,模型可以進一步分解照片,發現她是金頭發、微笑的表情等等,GAN模型就可以根據這些信息進行修改,并生成新圖像。

完全解糾纏的狀態下,模型能夠進一步識別出特征,比如年齡,微笑程度等等。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

在過去的幾年中,已經有很多人嘗試創建交互式臉部編輯模型,用戶可以通過滑塊或者其他傳統的用戶界面交互來改變圖片的臉部特征,并且在進行添加或改變面部特征時保持目標人臉的核心特征不變。

然而,由于GAN潛空間中的潛特征和風格糾纏現象,所以想要任意編輯人臉特征,技術還不成熟。

例如,眼鏡特征經常與老年人的特征糾纏在一起,這意味著增加眼鏡可能也會使臉部「老化」,而想要讓臉部老化,可能也會為面部增加一個眼鏡,具體取決于高層特征的應用分離程度。

最難的是改變頭發的顏色和發型,幾乎不可能在不重新計算發絲和面部布局的情況下給人物「理發」。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

一次訓練,隨意換臉

最近,Adobe在WACV2022會議上發表了一篇新論文,提供了一個解決這些基本問題的新方法。在StyleGAN生成的圖像中,用于保護身份的多重面部屬性編輯的學習映射器。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

論文地址:

https://openaccess.thecvf.com/content/WACV2022/papers/Khodadadeh_Latent_to_Latent_A_Learned_Mapper_for_Identity_Preserving_Editing_WACV_2022_paper.pdf

論文的主要作者是Adobe的應用科學家Siavash Khodadadeh,同時還有其他四位Adobe研究人員,以及中佛羅里達大學計算機科學系的一位研究人員。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

這篇論文很有意思,部分原因是Adobe已經在圖像合成領域研發了一段時間,而且和Adobe公司的產品很契合,這種功能在未來幾年內很有可能包裝進Adobe Creative Suite項目;但主要還是因為為這個項目提出的架構采取了不同的方法,在應用變化的同時保持GAN面部編輯器的視覺完整性。

作者宣稱他們訓練一個神經網絡來執行潛意識到潛意識的轉換,找到與屬性改變的圖像相對應的潛編碼。由于該技術是one-shot的,它不依賴于屬性逐漸變化的線性或非線性軌跡。

通過在整個生成pipeline上端對端訓練網絡,該系統可以適應現有的生成器架構的潛空間,并能夠保護屬性(Conservation properties),如人的身份特征可以在訓練損失中進行編碼。

一旦latent-to-latent網絡訓練完,就可以用于任意的圖像輸入,而不需要微調。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

這個特性也意味著文中提出的架構可以把模型一次性部署到用戶終端,但它仍然需要本地資源運行一個神經網絡,但新的圖像可以直接丟到模型里去,并可以隨意變化。因為框架是解耦的,也不需要進一步的特定圖像訓練。

這項工作的主要成果之一就是網絡可以通過只改變目標向量中的屬性來「凍結」潛空間中的身份特征。

從本質上講,網絡被嵌入到一個更通用的架構中,可以協調所有的處理元素,這些元素通過預先訓練好的具有凍結權重的組件,不會對轉換產生不必要的橫向影響。

由于訓練過程依賴于可以由種子圖像(GAN inversion)或現有的初始潛編碼產生的triplets,所以整個訓練過程是無監督的,這類系統中習慣性的一系列標簽和curation系統的能夠得到有效處理。系統中使用的是現成的屬性回歸器(attribute regressors)。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

作者在文中表示,該網絡能夠獨立控制的屬性數量只受到識別器能力的限制,如果你有一個屬性的識別器,就可以把它添加到任意的面孔上。在文中實驗,研究人員直接訓練了一個能調整35個不同的面部屬性的latent-to-latent網絡,比以前的任何方法都要多。

該系統還納入了一個額外的保障措施,以防止不想要的「副作用」轉換:在沒有要求改變屬性的情況下,latent-to-latent網絡會將一個latent向量映射到自己身上,進一步增加目標身份的穩定持久性。

在過去幾年里,基于GAN和編碼器/解碼器的人臉編輯器的l另一個反復出現的問題是,使用的變換方法往往會降低臉部相似度。

為了解決這個問題,Adobe項目使用了一個名為FaceNet的嵌入式面部識別網絡作為判別器,可以將標準的面部識別甚至表情識別系統整合到生成網絡中。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

該框架的另一個主要特點是能夠在潛空間任意轉換。通過提高GAN的空間意識,可以在潛過渡點范圍內(range of potential transition points)進行圖像修改,但如EQGAN等模型在面對不同材質、紋理的修改時,都需要重新訓練模型。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

除了可以接受全新的用戶圖像外,用戶還可以手動「凍結」他們希望在轉換過程中保留的元素。通過這種方式,用戶可以確保背景等無關因素不發生變化、

屬性回歸網絡由三個網絡組成:FFHQ、CelebAMask-HQ和一個由StyleGAN-V2的Z空間采樣40萬個向量而產生的局部GAN網絡。

分布外(Out-of-distribution, OOD)的圖像被過濾掉,并使用微軟的人臉API提取屬性,所得的圖像集被分成90/10,剩下72萬張訓練圖像和7.2萬張測試圖像進行對比。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

實驗網絡的初始配置可以容納35個潛變換的方式,但為了對類似的框架InterFaceGAN、GANSpace和StyleFlow進行類似的測試,轉換數簡化為8個,分別為年齡、禿頭、胡須、表情、性別、眼鏡、音高和偏角(Yaw).

實驗結果和預期相符,在其他競爭的模型架構中,圖像合成的結果出現了更大程度的糾纏。例如,在一個測試中,當用戶要求改變人物年齡時,InterFaceGAN和StyleFlow甚至把主體的性別都給變了。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

最后量化的實驗結果中可以看到,除了在Yaw(頭部角度)的實驗中,Latent-to-Latent的效果并不理想,其余七個屬性的性能基本都處于sota序列。而GANSpace對于年齡和眼鏡變化的效果則更優。

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35個人臉屬性變化

參考資料:

https://www.unite.ai/adobe-research-extends-disentangled-gan-face-editing/

本文來自微信公眾號 “新智元”(ID:AI_era),36氪經授權發布。

資深作者新智元
0
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作