華為天才少年謝凌曦:關于視覺識別領域發展的個人觀點
新智元
關注
2022-08-31 14:01
613次閱讀
新智元報道
【新智元導讀】計算機視覺識別領域的發展如何?華為天才少年謝凌曦分享了萬字長文,闡述了個人對其的看法。
CV的三大基本困難和對應的研究方向
-
語義稀疏性 :解決方案為構建高效計算模型(神經網絡)和視覺預訓練。此處的主要邏輯在于,想要提升數據的信息密度,就必須假設數據的非均勻分布(信息論)并對其建模(即學習數據的先驗分布)。目前,最為高效的建模方式有兩類,一類是通過神經網絡架構設計,來捕捉數據無關的先驗分布(例如卷積模塊對應于圖像數據的局部性先驗、transformer模塊對應于圖像數據的注意力先驗);一類是通過在大規模數據上的預訓練,來捕捉數據相關的先驗分布。這兩個研究方向,也是視覺識別領域最為基礎、受到關注最多的研究方向。
-
域間差異性 :解決方案為數據高效的微調算法。根據以上分析,網絡體量越大、預訓練數據集體量越大,計算模型中存儲的先驗就越強。然而,當預訓練域和目標域的數據分布具有較大差異時,這種強先驗反而會帶來壞處,因為信息論告訴我們:提升某些部分(預訓練域)的信息密度,就一定會降低其他部分(預訓練域沒有包含的部分,即預訓練過程中認為不重要的部分)的信息密度。現實中,目標域很可能部分或者全部落在沒有包含的部分,導致直接遷移預訓練模型的效果很差(即過擬合)。此時,就需要通過在目標域進行微調來適應新的數據分布。考慮到目標域的數據體量往往遠小于預訓練域,因而數據高效是必不可少的假設。此外,從實用的角度看,模型必須能夠適應隨時變化的域,因而終身學習是必須。
-
無限粒度性 :解決方案為開放域識別算法。無限粒度性包含開放域特性,是更高的追求目標。這個方向的研究還很初步,特別是業界還沒有能被普遍接受的開放域識別數據集和評價指標。這里最本質的問題之一,是如何向視覺識別中引入開放域能力。可喜的是,隨著跨模態預訓練方法的涌現(特別是2021年的CLIP),自然語言越來越接近成為開放域識別的牽引器,我相信這會是未來2-3年的主流方向。然而,我并不贊成在追求開放域識別的過程中,涌現出的各種zero-shot識別任務。我認為zero-shot本身是一個偽命題,世界上并不存在也不需要zero-shot識別方法。現有的zero-shot任務,都是使用不同方法,將信息泄露給算法,而泄露方式的千差萬別,導致不同方法之間難以進行公平對比。在這個方向上,我提出了一種被稱為按需視覺識別的方法,以進一步揭示、探索視覺識別的無限粒度性。
以下簡要分析各個研究方向
-
2012-2017年,手工構建更深的卷積神經網絡,探索一般優化技巧。關鍵詞:ReLU、Dropout、3x3卷積、BN、跳躍連接,等。在這個階段,卷積操作是最基本的單元,它對應于圖像特征的局部性先驗。
-
2017-2020年,自動構建更復雜的神經網絡。其中,網絡架構搜索(NAS)盛行一時,最后定型為基礎工具。在任意給定的搜索空間中,自動設計都能夠達到稍微更好的結果,且能夠快速適配不同的計算開銷。
-
2020年至今,起源于NLP的transformer模塊從被引入CV,利用attention機制,補足了神經網絡的遠距離建模能力。如今,大部分視覺任務的最優結果,都借助于包含transformer的架構所達到。
-
如果視覺識別任務沒有明顯改變,那么不論是自動設計,或者加入更復雜的計算模塊,都無法將CV推向新的高度。視覺識別任務的可能改變,大致可以分為輸入和輸出兩個部分。輸入部分的可能改變如event camera,它可能會改變規則化處理靜態或者時序視覺信號的現狀,催生特定的神經網絡結構;輸出部分的可能改變,則是某種統一各種識別任務的框架(方向3會談到),它有可能讓視覺識別從獨立任務走向大一統,從而催生出一種更適合視覺prompt的網絡架構。 -
如果一定要在卷積和transformer之間做取舍,那么transformer的潛力更大,主要因為它能夠統一不同的數據模態,尤其是文本和圖像這兩個最常見也最重要的模態。
-
可解釋性是一個很重要的研究方向,但是我個人對于深度神經網絡的可解釋性持悲觀態度。NLP的成功,也不是建立在可解釋性上,而是建立在過擬合大規模語料庫上。對于真正的AI來說,這可能不是太好的信號。
方向1b:視覺預訓練
-
有監督預訓練的發展相對清晰。由于圖像級分類數據最容易獲取,因此早在深度學習爆發之前,就有了日后奠定深度學習基礎的ImageNet數據集,并被沿用至今。ImageNet全集超過1500萬的數據規模,至今沒有被其他非分類數據集所超越,因此至今仍是有監督預訓練上最常用的數據。另外一個原因,則是圖像級分類數據引入了較少bias,因而對于下游遷移更加有利——進一步減少bias,就是無監督預訓練。
-
無監督預訓練,則經歷了曲折的發展歷程。從2014年開始,出現了第一代基于幾何的無監督預訓練方法,如根據patch位置關系、根據圖像旋轉等進行判斷,同時生成式方法也在不斷發展(生成式方法可以追溯到更早的時期,此處不贅述)。此時的無監督預訓練方法,還顯著地弱于有監督預訓練方法。到了2019年,對比學習方法經過技術改進,首次顯現出在下游任務上超越有監督預訓練方法的潛力,無監督學習真正成為CV界關注的焦點。而2021年開始,視覺transformer的興起催生了一類特殊的生成式任務即MIM,它逐漸成為統治性方法。
-
除了純粹的有監督和無監督預訓練,還有一類介于兩者之間的方法,是跨模態預訓練。它使用弱配對的圖像和文本作為訓練素材,一方面避免了圖像監督信號帶來的bias,一方面又比無監督方法更能學習弱語義。此外,在transformer的加持下,視覺和自然語言的融合也更自然、更合理。
-
從實際應用上看,應該將不同的預訓練任務結合起來。也就是說,應當收集混合數據集,其中包含少量有標簽數據(甚至是檢測、分割等更強的標簽)、中量圖文配對數據、大量無任何標簽的圖像數據,并且在這樣的混合數據集上設計預訓練方法。
-
從CV領域看,無監督預訓練是最能體現視覺本質的研究方向。即使跨模態預訓練給整個方向帶來了很大的沖擊,我依然認為無監督預訓練非常重要,必須堅持下去。需要指出,視覺預訓練的思路很大程度上受到了自然語言預訓練的影響,但是兩者性質不同,因而不能一概而論。尤其是,自然語言本身是人類創造出來的數據,其中每個單詞、每個字符都是人類寫下來的,天然帶有語義,因此從嚴格意義上說,NLP的預訓練任務不能被視為真正的無監督預訓練,至多算是弱監督的預訓練。但是視覺不同,圖像信號是客觀存在、未經人類處理的原始數據,在其中的無監督預訓練任務一定更難。總之,即使跨模態預訓練能夠在工程上推進視覺算法,使其達到更好的識別效果,視覺的本質問題還是要靠視覺本身來解決。
-
當前,純視覺無監督預訓練的本質在于從退化中學習。這里的退化,指的是從圖像信號中去除某些已經存在的信息,要求算法復原這些信息:幾何類方法去除的是幾何分布信息(如patch的相對位置關系);對比類方法去除的是圖像的整體信息(通過抽取不同的view);生成類方法如MIM去除的是圖像的局部信息。這種基于退化的方法,都具有一個無法逾越的瓶頸,即退化強度和語義一致性的沖突。由于沒有監督信號,視覺表征學習完全依賴于退化,因此退化必須足夠強;而退化足夠強時,就無法保證退化前后的圖像具有語義一致性,從而導致病態的預訓練目標。舉例說,對比學習從一張圖像中抽取的兩個view如果毫無關系,拉近它們的特征就不合理;MIM任務如果去除了圖像中的關鍵信息(如人臉),重建這些信息也不合理。強行完成這些任務,就會引入一定的bias,弱化模型的泛化能力。未來,應該會出現一種無需退化的學習任務,而我個人相信,通過壓縮來學習是一條可行的路線。
方向2:模型微調和終身學習
-
遷移學習:假設 Dpre 或者 Dtrain 和 Dtest 的數據分布大不相同; -
弱監督學習:假設 Dtrain 只提供了不完整的標注信息; -
半監督學習:假設 Dtrain 只有部分數據被標注; -
帶噪學習:假設 Dtrain 的部分數據標注可能有誤; -
主動學習:假設 Dtrain 可以通過交互形式標注(挑選其中最難的樣本)以提升標注效率; -
持續學習:假設不斷有新的 Dtrain 出現,從而學習過程中可能會遺忘從 Dpre 學習的內容; -
……
-
從孤立的setting向終身學習的統一。從學術界到工業界,必須拋棄“一次性交付模型”的思維,將交付內容理解為以模型為中心,配套有數據治理、模型維護、模型部署等多種功能的工具鏈。用工業界的話說,一個模型或者一套系統,在整個項目的生命周期中,必須得到完整的看護。必須考慮到,用戶的需求是多變且不可預期的,今天可能會換個攝像頭,明天可能會新增要檢測的目標種類,等等。我們不追求AI能自主解決所有問題,但是AI算法應該有一個規范操作流程,讓不懂AI的人能夠遵循這個流程,新增他們想要的需求、解決平時遇到的問題,這樣才能讓AI真正平民化,解決實際問題。對于學術界,必須盡快定義出符合真實場景的終身學習setting,建立起相應的benchmark,推動這一方向的研究。
-
在域間差異明顯的情況下,解決大數據和小樣本的沖突。這又是CV和NLP的不同點:NLP已經基本不用考慮預訓練和下游任務的域間差異性,因為語法結構和常見單詞完全一樣;而CV則必須假設上下游數據分布顯著不同,以致于上游模型未經微調時,在下游數據中無法抽取底層特征(被ReLU等單元直接濾除)。因此,用小數據微調大模型,在NLP領域不是大問題(現在的主流是只微調prompt),但是在CV領域是個大問題。在這里,設計視覺友好的prompt也許是個好方向,但是目前的研究還沒有切入核心問題。
方向3:無限細粒度視覺識別任務
-
基于分類的方法:這包括傳統意義上的分類、檢測、分割等方法,其基本特點是給圖像中的每個基本語義單元(圖像、box、mask、keypoint等)賦予一個類別標簽。這種方法的致命缺陷在于,當識別的粒度增加時,識別的確定性必然下降,也就是說,粒度和確定性是沖突的。舉例說,在ImageNet中,存在著“家具”和“電器”兩個大類;顯然“椅子”屬于“家具”,而“電視機”屬于“家電”,但是“按摩椅”屬于“家具”還是“家電”,就很難判斷——這就是語義粒度的增加引發的確定性的下降。如果照片里有一個分辨率很小的“人”,強行標注這個“人”的“頭部”甚至“眼睛”,那么不同標注者的判斷可能會不同;但是此時,即使是一兩個像素的偏差,也會大大影響IoU等指標——這就是空間粒度的增加引發的確定性的下降。
-
語言驅動的方法:這包括CLIP帶動的視覺prompt類方法,以及存在更長時間的visual grounding問題等,其基本特點是利用語言來指代圖像中的語義信息并加以識別。語言的引入,確實增強了識別的靈活性,并帶來了天然的開放域性質。然而語言本身的指代能力有限(想象一下,在一個具有上百人的場景中指代某個特定個體),無法滿足無限細粒度視覺識別的需要。歸根結底,在視覺識別領域,語言應當起到輔助視覺的作用,而已有的視覺prompt方法多少有些喧賓奪主的感覺。
-
開放性:開放域識別,是無限細粒度識別的一個子目標。目前看,引入語言是實現開放性的最佳方案之一。 -
特異性:引入語言時,不應被語言束縛,而應當設計視覺友好的指代方案(即識別任務)。 -
可變粒度性:并非總是要求識別到最細粒度,而是可以根據需求,靈活地改變識別的粒度。
-
按需視覺識別中的request,本質上是一種視覺友好的prompt。它既能夠達到詢問視覺模型的目的,又避免了純語言prompt帶來的指代模糊性。隨著更多類型的request被引入,這個體系有望更加成熟。
-
按需視覺識別,提供了在形式上統一各種視覺任務的可能性。例如,分類、檢測、分割等任務,在這一框架下得到了統一。這一點可能對視覺預訓練帶來啟發。目前,視覺預訓練和下游微調的邊界并不清楚,預訓練模型究竟應該適用于不同任務,還是專注于提升特定任務,尚無定論。然而,如果出現了形式上統一的識別任務,那么這個爭論也許就不再重要。順便說,下游任務在形式上的統一,也是NLP領域享有的一大優勢。
在上述方向之外
-
在識別領域,傳統的識別指標已經明顯過時,因此人們需要更新的評價指標。目前,在視覺識別中引入自然語言,是明顯且不可逆的趨勢,但是這樣還遠遠不夠,業界需要更多任務層面的創新。
-
生成是比識別更高級的能力。人類能夠輕易地識別出各種常見物體,但是很少有人能夠畫出逼真的物體。從統計學習的語言上說,這是因為生成式模型需要對聯合分布 p(x,y) 進行建模,而判別式模型只需要對條件分布 p(y|x) 進行建模:前者能夠推導出后者,而后者不能推導出前者。從業界的發展看,雖然圖像生成質量不斷提升,但是生成內容的穩定性(不生成明顯非真實的內容)和可控性仍有待提升。同時,生成內容對于識別算法的輔助還相對較弱,人們還難以完全利用虛擬數據、合成數據,達到和真實數據訓練相媲美的效果。對于這兩個問題,我們的觀點都是,需要設計更好、更本質的評價指標,以替代現有的指標(生成任務上替代FID、IS等,而生成識別任務需要結合起來,定義統一的評價指標)。
-
1978年,計算機視覺先驅David Marr設想,視覺的主要功能,在于建立環境的三維模型,并且在交互中學習知識。相比于識別和生成,交互更接近人類的學習方式,但是現在業界的研究相對較少。交互方向研究的主要困難,在于構建真實的交互環境——準確地說,當前視覺數據集的構建方式來源于對環境的稀疏采樣,但交互需要連續采樣。顯然,要想解決視覺的本質問題,交互是本質。雖然業界已經有了許多相關研究(如具身智能),但是還沒有出現通用的、任務驅動的學習目標。我們再次重復計算機視覺先驅David Marr提出的設想:視覺的主要功能,在于建立環境的三維模型,并且在交互中學習知識。計算機視覺,包括其他AI方向,都應該朝著這個方向發展,以走向真正的實用。
結語
作者聲明
0
相關產品
查看更多同類產品
Brandwatch
3.2
40條點評
一站式數字消費者智能平臺提供商
咨詢產品
免費試用
美攝科技
2.3
6條點評
美攝是一家專注于智能視音頻整體解決方案的國家高新技術企業
咨詢產品
免費試用
百度AI開放平臺-圖像識別
暫無評分
1條點評
圖像識別,滿足各類開發者和企業用戶的應用需求。
咨詢產品
免費試用
阿里云×達摩院 視覺智能開放平臺
暫無評分
1條點評
是阿里云旗下,綜合了阿里巴巴,達摩院,阿里云的圖像識別,人臉識別,文字識別,商品識別等相關視覺技術的綜合類視覺AI能力服務平臺
咨詢產品
免費試用
碼隆科技
暫無評分
1條點評
致力于為全球用戶開發基于深度學習與計算機視覺技術的智能應用
咨詢產品
免費試用
最新文章
查看更多
關注
36氪企服點評
公眾號

打開微信掃一掃
為您推送企服點評最新內容