對話IDEA研究院張家興:預訓練模型將成AI未來「底層設施」,支持 AIGC的所有商業化機遇
作者:蘇打
出品:明亮公司
時至今日,人類與AI似乎仍處于“磨合期”。但AIGC(AI-Generated Content)發生的一些新進展,正讓這件事變得有趣起來。
10月17日,當前AI繪畫領域獨角獸公司、英國開源人工智能公司Stability AI宣布獲得1.01億美元融資,估值達10億美元。其“爆款”產品Stable Diffusion是一款功能強大、免費且開源的文本到圖像生成器。
在國內,被視為“中文版Stable Diffusion”的太乙 Stable Diffusion“火速跟進”,于今年11月1日成功推出純中文版本和中英文雙語版本。
據其研發方IDEA研究院認知計算與自然語言研究中心(IDEA CCNL)負責人、講席科學家張家興介紹,該模型由封神榜團隊研發,11月9日其于機器之心發起的技術解讀直播現場,場觀人數破萬,20日內下載量突破10萬,且在迅速增加中。
“AIGC的應用場景已經開始變得廣泛,未來也呈現出非常強勁的滲透前景。”近日,張家興與「明亮公司」進行了一場關于AIGC及預訓練模型的深度對話,以期展現當前該領域的新進展以及商業化前景。
不久前,AIGC初創公司Jasper曾宣布以15億美元估值獲得1.25億美元A輪融資。而早在2019年便獲得微軟10億美元投資的曾人工智能公司Open AI,當前估值已躥升至200億美元。
可以確定的是,伴隨AI繪畫工具的進步,插畫、海報、數字人制作、游戲及視頻原畫設計等領域正開始有節奏地使用AIGC相關的預訓練模型,以減輕創作過程中因大量而枯燥的基礎工作導致的低效等問題。未來,更多與生活相關的產品設計,比如服裝、鞋帽等,都將可能出現AIGC及其背后預訓練模型的身影。
“我們認為,未來AI將成為完全由模型驅動的產業,有什么樣的模型就會有什么樣的產品。而預訓練模型作為‘底層設施’,將以底層架構的角色被鋪設在未來AIGC的應用之前,分享隨之產生的所有商業化機遇。”
他認為,以一支團隊為單位形成一個算法集群,生產出一個或多個模型,將成為未來的主要發展路徑。“一方面,新的模型可直接催生一些相應的產業。另一方面,對于已經存在的成熟產業,亦可通過這些模型催生出相應的產品,而產品反過來又需要大量模型進行迭代”。
進入IDEA前,張家興曾任微軟亞洲研究院研究員、螞蟻集團資深算法專家、360數科首席科學家,從零到一創建了阿里巴巴和螞蟻集團的深度學習團隊,落地了智能客服等多個自然語言技術方向,并于任職360數科期間組建了AI數據融合中臺部門。
「明亮公司」了解到,封神榜已經開源88個預訓練模型,成為中文最大的預訓練模型體系。張家興帶領的封神榜團隊正受邀與阿里和華為進行接洽生態入駐,目前已在遷移當中。
在張家興及其團隊的眼中,AI繪畫是一件“可激發人類創造力”的事情,它可以成為工具,亦具備情緒價值,而非人類智慧的替代或者顛覆。
以下為明亮公司與張家興對話內容(有刪節)
Q:明亮公司
A:張家興 IDEA 研究院認知計算與自然語言研究中心(IDEA CCNL)負責人、講席科學家
(IDEA 研究院CCNL講席科學家張家興)來源:IDEA
Q:11月初我們剛剛完成了太乙Stable Diffusion中文版和雙語版的開源,這對于IDEA研究院和開發者而言意味著什么?
A:從模型本身而言,功能并不復雜。使用者輸入一個文本,模型在文本的指導下從一張完全白噪聲的圖片開始,一點一點精細化,最后生成一張清晰的圖片。Diffusion可以理解為加噪的過程,而生成圖片則是一個去噪的過程。
人類在作畫時,也是一個逐漸從模糊到清晰的過程,而Diffusion Model便是模仿人類大腦的動線——先有一個想法,然后加一點新的啟發,生成一張大概的圖像,再增加更多啟發,最后令作品愈加精細和復雜。
人類藝術家的能力有兩個優勢,一是在每一個啟發之間具備強關聯能力,即可以通過上一個想法啟迪下一個想法;二是對細節充滿各種想象。
這兩種能力如果對應到Diffusion模型中,首先要實現的就是,從最初的文本到最終的圖片,中間所有環節都具備強關聯性,即模型可以像人類一樣去思考下一步;其次,能夠實現最后呈現出的作品足夠清晰并具備豐富的細節。目前我們的模型通過從海量數據中不斷的學習,已經可以達到這個效果。
在中文世界里用中文描述去生成圖片,是一個質變。生產的結果圖片會更有中國元素、更符合中國文化,對中文的語義理解更準確,而不是此前以英文為模型將中文翻譯過去進行生產,比如輸入“女孩”一詞,可能生成的圖片是國外的一個女孩子。
Q:此前是否也經歷過多次迭代?
A:2022 年 7 月,IDEA CCNL開源了第一個中文 CLIP 模型,目前已經有 4 個版本。以其中一個 Taiyi-CLIP-Roberta-large-326M-Chinese 版本為例,IDEA CCNL用中文語言模型替換了開源的英文 CLIP 中語言編碼器,在訓練過程中凍結了視覺編碼器并且只微調這個中文語言模型,在 1 億級別的中文數據上訓練了 24 個 epoch,一共過了約 30 億中文圖文數據,得到了這個包含圖片信息的中文表征語言模型,為后續訓練中文 Diffusion 相關的模型奠定了重要的基礎。
之后,我們又開源了第一個中文Disco Diffusion 模型Taiyi-Diffusion-532M-Nature-Chinese,該模型由Katherine Crowson's 的無條件擴散模型在自然風景圖上微調而來。結合Taiyi-CLIP-Roberta-large-326M-Chinese 可以實現中文生成各種風格的風景圖片。
在這些工作的基礎上,10月份我們全力投入到Stable Diffusion模型,很快就把太乙 Stable Diffusion做了出來,為時不足一個月。
如果追溯到更早,從去年11月份宣布封神榜大模型開源計劃,我們一直在持續生產模型,并已經成功推出自然語言領域很多預訓練模型,基本覆蓋該領域全部主流模型結構。截至目前,僅一年多時間已經開源了88個模型。而且很多都是目標領域內先進的,多次獲得FewCLUE和ZeroCLUE權威榜單的冠軍。
Q:我看過“鐵馬冰河入夢來”太乙版本和Stable版本的AI翻譯,差距懸殊,請問我們是如何實現將中文的“意會”進行具像化的?
A:就這句詩詞而言,作為文本輸入模型時,是作為一整句話被識別的,而非只對應一個字或者一個詞,所以我們太乙版本的翻譯結果與其他非中文語言版本的結果會呈現出顯著不同,更能實現“意會”的目的。
在中國的文化中,詞的組合會表現出不同的意境。比如床前明月光這句詩,拆解開來,模型會識別中文語境中如床前和明月、明月和光等組合在一起所表達的意義。而模型在訓練的過程中,也是從這些組合所處的上下文中,學到的這些組合所表示的意義。只有在海量的中文預料中訓練,這些中文意境才會被模型正確的理解。而這正是太乙模型的優勢。
Q:模型識別大致可以產生多少種結果?
A:對于相同的一個輸入,模型幾乎可以產生無限多種圖片的呈現。
所以,其中的評判標準不應是多少張圖片,而是使用者對圖片的滿意度有多高。由于產生的圖片每次都是隨機的,所以對使用者而言每次看到相同的文本指引出不同的圖片,本身也是一件很有樂趣的事情。
Q:模型是否會主動進行審美篩選,盡量給出好看的圖片?
A:我們背后是有審美模型的,通過尋找一些高質量的圖片,會訓練數據挑選好看的圖,而生成圖片也可以按審美設備模型去排序。未來或許可以獲得更多海量用戶反饋,作為訓練數據,能夠讓我們的審美模型的效果越來越好。所以歸根結底,什么是美的,還是取決于人的標準。
Q:封神榜團隊目前在該領域處于何種水平?
A:封神榜是目前國內唯一的以開源模型為目的的團隊。我們希望把這件事做到極致。我們也在積極的與各個開源模型社區,比如阿里巴巴的ModelScope、華為昇騰生態等進行合作,把我們的中文預訓練模型加入到他們的生態中。通過加入更加廣泛的開源生態,我們希望封神榜模型能夠讓更多人使用,這也是做所有開源人的理想。
根據在Huggingface網站上的統計,目前全球的預訓練模型總計約8萬個,而其中的中文預訓練模型不到1000個,只占到1%。這與中國人工智能的規模和總體經濟體量很不相稱,我們也希望更多的中國人工智能團隊能夠加入到開源模型的隊伍中。
Q:AI繪畫除了文生圖還有哪些功能是需要去實現的?
A:比如圖片編輯類的模型,這是我們正在做的一件事。
具體而言,假如我想生成一張“鳥蹲在樹枝上”的圖片。輸入這些文字后,發現鳥的翅膀是收起來的,我只需要輸入“鳥張開翅膀”,那么在背景都不變的情況下,鳥就張開了翅膀。這是一種圖片局部編輯的技術,背后有很大的算法探索的空間。
之前繪畫需要從場景到細節一一把握,現在你想要一張精美的圖片只需要首先畫出場景即可,然后再應用局部編輯技術增添各種細節。比如你想用AI形成一個熱帶雨林這種場景,但你從來都沒見過熱帶雨林,通過這一模型便可以先創造一張雨林的圖片。然后進行自由編輯,添加各種元素。
Q:能否舉例說明這種技術未來的應用場景會在哪里?
A:比如插畫師,因為本身就需要配合文字進行圖像的創作。還有海報設計,需要生成非常多的創意進行選擇。另外游戲和影視的原畫設計也非常需要這一技術手段,來拓展想象空間。甚至修圖類軟件中,圖像的編輯技術也有廣泛的應用。
還有一種個性化的訓練模型,你可以訓練一個只屬于你的模型。比如,用幾張你的各種角度的照片去訓練模型,然后把這些照片一個名字“小張”,然后輸入“小張站在沙灘上”,模型會生成一張你站在沙灘上的照片,而且可能生成你的任何角度和任何形象,并且完美的融入環境。這樣的個性化訓練,代價也不大,可以在10分鐘左右完成。
我們正在把這種個性化訓練的能力做成一個引擎。使用者無需懂算法,即可在個人電腦上訓練自己的個性化模型,生成個性化的照片。這個引擎也會開源,也歡迎各個公司在這個引擎基礎上進行各種產品創新。
Q:這一部分我們有想法親自參與嗎?
A:作為有益嘗試,當然我們也會做C端產品,積極進行產品創新和嘗試。但生產AIGC基礎預訓練模型仍是我們的主要工作。
我們會堅持作為基礎設施的角色,其商業邏輯是“等風來”——我們提供基礎模型,只要生態中下游有一個行業成為機遇,那么我們也是機遇,因為大家都在使用我的底層設施。從這個角度來說,我們首先想成為英特爾、AMD這樣的公司,鋪設在所有的機遇面前,成為下游生態的必要前提。
Q:目前我們的模型是否主要針對中國市場?未來計劃拓展其他市場嗎?
A:我們首先以中文AIGC市場作為出發點,但同樣也面向全球市場。因為AIGC是天然的有文化和語言區分的,每個國家和文化,都該有自己的AIGC模型。如果看當下的開源Stable Diffusion模型,也僅有英語、中文、日語和韓語四種語言版本。因此這里還存在一個很大的市場開拓空間。
Q:是否有統計過我們的模型有多少人在使用?
A:11月1日發布之后,20天模型下載量超過10萬,在所有開源Stable Diffusion模型中,下載量排名全球第三,僅次于原版的Stable Diffusion,也說明了中國對AIGC模型的旺盛需求。而且下載量每天都在增長,速度非常快。大家對太乙Stable Diffusion模型的關注度非常高,11月9日在機器之心直播僅僅30分鐘內,在線觀看人數已破萬。
Q:目前看來Stability AI是用一個Stable Diffusion的大單品/爆款橫掃市場的邏輯,我們對此如何看待?
A:商業的成功可能要借助于爆款,但不能固步自封在一個爆款,因為這種模式不長久。可以依賴一個爆款的前提是,可以針對這款產品進行不斷升級,并具備可持續性,但任何一個技術最終都會飽和。
比如某個算法,其他人準確率只有50%而你可以做到90%時,的確有巨大優勢。但別人也能做到90%,你能做到95%,在應用方面差別就很不明顯了。且后面5%的提升,需要投入的成本會非常昂貴。
我們真正應該做的,不是堅守一個爆款,而是具備持續不斷打造新AIGC的能力,尤其是全球范圍內還沒有出現的新能力,這是我們追求的目標。
Q:可否透露一下這些新能力以及未來的應用場景?
A:比如3D和視頻生成,以及我們已經具備領先優勢的文本生成技術。目前可以透露的是,我們目前投入了很多精力在做因果推理的文本生成,可以直接生成多步的因果推理鏈路。一方面,我們非常想將其在傳統領域推廣,比如應用于金融領域,進行事件推理;另一方面,我們更希望它作為(針對元宇宙的)數字人/虛擬人的底層驅動,因為我認為,人的思考實際上是一個永不終止的因果推理鏈路。
Q:AI繪畫未來會沿著一個什么樣的軌跡發展?
A:我認為其中有兩大市場前景,一是成為專業人員的生產力工具,同時讓更多人能夠通過技術實現專業化效果;一是對非專業人員的日常生活產生巨大影響,能夠為個人生成大量個性化、多模態的沉浸式體驗。
比如預訓練模型與視頻3D結合后。設想一下,你帶上VR眼鏡,說“我想體驗一下亞馬遜叢林”,系統可以為你生成逼真的沉浸式場景。這種實現目前尚有難度,因為3D場景的生產成本比較高。我們把AIGC擴展到3D生成,可以大大提升行業效率。
Q:“用AI生產AI”會是未來AI發展的終局嗎?
A:技術就是“套娃”,大家都是在用舊的技術生產新的技術,用之前的模型生產第二個模型,然后用第二個模型再去生產第三個模型。所以技術沒有終局,他是一個不斷演進的過程。
其實AI生產AI這個事情也是非常值得討論的,現在AI模型的都是算法工程師在生產,用模型生產模型還是比較值得期待的。我們也剛剛開源了GTS乾坤鼎引擎,這是一種模型自動生產引擎,在中文權威的FewCLUE榜單上,這個引擎自動生產的模型已經擊敗了國內各個頂尖的算法專家所訓練的模型,取得了冠軍的成績。
Q:AI繪畫再演進之后,如何與人類和平相處?
A:首先,AI要變成專業人員或者說人類的生產力工具。其次,就藝術而言,它其實是一個被技術影響最大的一個領域。回顧美術發展史,文藝復興時首先出現了濕壁畫,誕生了文藝復興三杰。接下來很快就出現了油畫技術,整個歐洲開始步入一個新時期。后來,由于顏料可以隨身攜帶,從而藝術們可以從工作室走出步入鄉間田野,印象派出現。
我認為,對藝術最大的一次沖擊應該是相機的誕生。但實際上,照片盡管極大沖擊了肖像畫這一類別,但同時也直接催生了另一個新的藝術門類——攝影藝術。這世界背后有無數的邏輯在推動某些事情發生,他就一定要發生,無法阻擋,也不必固守。
技術的發展就是一個人類不斷被‘異化’的過程,從互聯網普及后,很多東西已經被‘異化’了。但同時,我們也會具備一些新能力,世界也因此變得更加豐富。人類具有很強的調試能力,并在其中發現新優勢。
Q:我們對未來有什么愿景?
A:我們希望讓世界上每個人都能用AI創造自己的美好生活,希望AIGC技術徹底普及之后,每個人能通過它給自己創造各種美好的體驗。
某種角度而言,我們希望技術也能具備情緒價值,而它也應該為人類提供這樣的價值。
本文來自微信公眾號“明亮公司”(ID:suchbright),作者:主編24小時在線,36氪經授權發布。