AI畫畫神器迅速走紅!成為行業(yè)引爆點(diǎn),這家AIGC公司背后有何秘訣?
GGV有話說:
GGV投資筆記是 GGV紀(jì)源資本關(guān)于投資、商業(yè)、科技的所見所聞所想,探討關(guān)于世界的一切。
在這里,你可以收獲:
全球優(yōu)秀科技公司管理經(jīng)驗(yàn)、一線調(diào)研;
頂級(jí)風(fēng)險(xiǎn)投資人&創(chuàng)業(yè)者經(jīng)驗(yàn)分享;
大航海時(shí)代的世界人文歷史、商業(yè)見聞……
以下是 GGV投資筆記系列第133期。
AI具有想象力與創(chuàng)造力嗎?
“Yuan初”創(chuàng)始人張?jiān)姮摰幕卮鹗?ldquo;Yes.”
“Yuan初”的母公司,張?jiān)姮撍鶆?chuàng)辦的ZMO一直致力于利用AI來進(jìn)行圖片、視頻等內(nèi)容的直接生成——是的,幾個(gè)關(guān)鍵詞就足以讓AI自動(dòng)生成圖片或視頻,除ZMO剛剛上線的中文版產(chǎn)品“Yuan初”(https://yuan.zmoai.cn/)之外,這種嶄新的內(nèi)容創(chuàng)造機(jī)制已經(jīng)在歐美流行起來。
AI的創(chuàng)造力,是一點(diǎn)點(diǎn)被ZMO團(tuán)隊(duì)“發(fā)掘”的,它可以創(chuàng)造出“不合常理”的事物,例如像豹子一樣的兔子,狗狗和面包的結(jié)合,也可以創(chuàng)造出超脫于當(dāng)今創(chuàng)作者的新風(fēng)格。
“Yuan初”的初心并非僅僅是想象與創(chuàng)造,而是希望實(shí)實(shí)在在地解決用戶的需求,從大V、博主與UP主到新媒體小編,以及所有需要海報(bào)、包裝設(shè)計(jì)、產(chǎn)品展示的從業(yè)者。對(duì)他們來說,一些設(shè)計(jì)圖的初始版本已經(jīng)可以交給AI來完成,設(shè)計(jì)師可以從事更加重要的創(chuàng)意工作,互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)也許不再是一件門檻過高的事情。
Diffusion model技術(shù)突破帶來的革命
在推出“Yuan初”之前,張?jiān)姮摰膱F(tuán)隊(duì)一直在生成式AI(Generative AI)這片領(lǐng)域探索,并且小有成就。轉(zhuǎn)折點(diǎn)發(fā)生在2022年4月,當(dāng)時(shí)行業(yè)掀起了一場(chǎng)不小的風(fēng)暴,“AI生成”技術(shù)嶄新的算法框架出現(xiàn)了。
Diffusion model框架的理論基礎(chǔ)在2015年已經(jīng)被提出【1】,直到最近1-2年開始在圖像生成的效果上有了很大突破【2】,開始被大家關(guān)注,成為學(xué)界的新寵。同時(shí),在“文本-圖像”跨模態(tài)大模型的加持下,Diffusion model更是在文字生成圖片這一應(yīng)用中大放異彩,受到業(yè)界與資本的追捧。生成模型領(lǐng)域在過去近8年時(shí)間里,大多數(shù)任務(wù)的SOTA一直都是GAN(生成對(duì)抗網(wǎng)絡(luò))框架霸榜。GAN通過對(duì)抗學(xué)習(xí)的方式,同時(shí)訓(xùn)練一個(gè)判別器和生成器,兩者互相對(duì)抗互相促進(jìn)提升,最終目的是讓生成器生成出以假亂真的真實(shí)圖像,讓判別器難以判斷是真是假,以達(dá)到納什均衡。
文字生成圖片這一應(yīng)用在GAN框架中也有被廣泛研究,不過從生成質(zhì)量以及圖文匹配度來說,都還離實(shí)用化還有很大距離。其原因主要在于三點(diǎn):
1)GAN在生成圖像時(shí)直接一次性完成從噪聲/條件到最終結(jié)果的生成,這種一步到位的方式難度很大;
2)GAN本身基于的對(duì)抗學(xué)習(xí)訓(xùn)練方式并不是最優(yōu)的,容易陷入局部優(yōu)化的困境,并且在學(xué)習(xí)復(fù)雜數(shù)據(jù)分布時(shí)容易訓(xùn)練失敗;
3)缺乏大模型的加持,文本與圖像多模態(tài)之間的關(guān)聯(lián)性難以充分學(xué)習(xí),導(dǎo)致在非限定場(chǎng)景中的效果較差。
張?jiān)姮撨@樣解釋Diffusion model的算法框架優(yōu)勢(shì):Diffusion不是直接在噪聲和圖像直接進(jìn)行映射,而是通過逐級(jí)前向加噪和逆向去噪的過程實(shí)現(xiàn)噪聲和圖像直接的映射。這種AI學(xué)習(xí)之后,就可以生成非常精美的圖片,讓生成效果提升一個(gè)臺(tái)階。此外在跨模態(tài)大模型的幫助下,AI能夠和用戶通過自然語言進(jìn)行簡單的交互,生成用戶心中所想的高質(zhì)量圖像。
Diffusion model的算法框架在北美火爆了一把,很多人通過其中的開源框架來推出自己的新一代“生成工具”。ZMO團(tuán)隊(duì)也看到AI生成可能會(huì)改變未來的很多事情,因此上線了“Yuan初”(yuan.zmoai.cn)。
讓機(jī)器來畫圖、做視頻,聽起來是一件有些神奇的事,但長遠(yuǎn)來看它將解決重要的剛需——這是張?jiān)姮摰睦斫狻?/span>她認(rèn)為人們?cè)谔摂M世界里流連的時(shí)間越來越多了,一個(gè)在真實(shí)世界里盯著電腦或手機(jī)的人,消費(fèi)的是虛擬世界的文字、圖片或視頻,而理所當(dāng)然的結(jié)果就是虛擬世界之中文字、圖片或視頻的需求量正在指數(shù)級(jí)增加。不僅需求量提升,對(duì)質(zhì)量的要求也非常高,只有新鮮的、吸引人的才是好的。
那么這些文字、圖片或視頻內(nèi)容還能從哪里供給呢,張?jiān)姮撜J(rèn)為,如果只有小部分人是專業(yè)創(chuàng)作者,那么生產(chǎn)速度是永遠(yuǎn)趕不上需求速度的。但每個(gè)普通人都可以依靠AI生成內(nèi)容。在嘗試AI生成階段,她還發(fā)現(xiàn)AI這個(gè)“靈魂畫手”具有讓人驚艷的創(chuàng)造力,也許大家低估了AI的能力邊界。
在圖片這個(gè)切入口之后,張?jiān)姮摰腪MO團(tuán)隊(duì)最近也在研究海外的AI文字生成器,這些生成器在國外已算是風(fēng)靡,迅速走向了商業(yè)化,Airbnb等企業(yè)也是它們的客戶。
AI不僅是“靈魂畫手”,也可以是“靈魂寫手”,給一個(gè)標(biāo)題和幾個(gè)關(guān)鍵字,生成的AI文字甚至可以“以假亂真”。張?jiān)姮撚X得很有意思的地方在于,如果給AI一個(gè)命題,AI甚至可以在文章開頭“自問自答”這個(gè)概念的含義,而它寫出的含義是在Google上搜不到的。換句話說,這是AI自己所“理解”的概念,通過理解再進(jìn)行與其他概念的關(guān)聯(lián)而感受到概念與概念之間的關(guān)系,再去自動(dòng)生成。
既然AI可以自行創(chuàng)作,那么這個(gè)話題往深處展開,很容易讓人疑惑:它是否會(huì)替代創(chuàng)作者?張?jiān)姮摻o出的解釋是,AI能夠?qū)?chuàng)作門檻降到最低,甚至由于機(jī)器學(xué)習(xí)可以了解人們最感興趣的信息與最喜歡的圖像,而使得AI作品更抓人眼球,做出真正高流量的爆款作品。但AI沒有自己的觀點(diǎn),因此它只能做一個(gè)幫手,而不是創(chuàng)作的主角。
ZMO團(tuán)隊(duì)持續(xù)嘗試AI生成的驅(qū)動(dòng)力是讓每個(gè)人成為創(chuàng)作者。因此,他們正在打造使用難度低的產(chǎn)品,而想要降低圖片素材的門檻,不僅可以生成,還可以直接更換元素。例如“Yuan初”的新功能photo editing可以支持用戶直接擦除圖片的部分,無論是背景或是人像,都可以迅速換上自己想要的元素。“Yuan初”正在成為一個(gè)“AI版Photoshop”。
“Yuan初”的用戶是誰:
所有與傳播和市場(chǎng)相關(guān)的工作者
張?jiān)姮撛?jīng)在曾是Apple Air Pods產(chǎn)品線創(chuàng)始團(tuán)隊(duì)核心人員,主要負(fù)責(zé)產(chǎn)品線的系統(tǒng)構(gòu)架研發(fā),設(shè)計(jì),生產(chǎn)整個(gè)流程,之后加入Google 擔(dān)任AR系統(tǒng)構(gòu)架師,負(fù)責(zé)Glass, Reflector等項(xiàng)目的算法和構(gòu)架。
盡管自己擁有技術(shù)與產(chǎn)品的雙重背景,她把ZMO的技術(shù)積累歸功于團(tuán)隊(duì):Liqian Ma在北大研究生畢業(yè)后前往魯汶大學(xué)讀了人工智能的博士學(xué)位,導(dǎo)師是CVPR最高獎(jiǎng)馬爾獎(jiǎng)的獲得者,盡管已經(jīng)拿到了Google、Facebook、Adobe等巨頭的offer,仍然選擇創(chuàng)立一家基于AI技術(shù)的公司;Han專攻圖像生成算法,很早便在 CVPR上發(fā)表了AI相關(guān)的文章,并將Diffusion model上一代的GAN技術(shù)使用到1024高清版并且可以商用的級(jí)別,在騰訊工作時(shí),他所在的AI部門也獲得了不少獎(jiǎng)項(xiàng);另外一位聯(lián)合創(chuàng)始人Roger Yin雖然負(fù)責(zé)營銷,但同樣擁有擁有UBC計(jì)算機(jī)工程學(xué)位。
美國疫情剛爆發(fā)時(shí),張?jiān)姮撆紶柵cGoogle ads的同事交流,她發(fā)現(xiàn)僅僅在線廣告上面,內(nèi)容的需求量就已經(jīng)激增起來。尤其在新冠疫情后,人們把更多時(shí)間花在線上,對(duì)于內(nèi)容的新鮮度更加挑剔了。線上辦公引發(fā)了內(nèi)容狂潮,每位博主大V都在費(fèi)盡心思地做好內(nèi)容,吸引讀者與消費(fèi)者。
當(dāng)然,想到創(chuàng)業(yè),張?jiān)姮撌紫人伎嫉倪€是AI生成的商業(yè)前景。能夠立刻想到的是兩個(gè)產(chǎn)業(yè):廣告與娛樂。廣告對(duì)內(nèi)容的需求程度極高,她的前東家Google 更是一家主要收入為廣告的巨頭,因此張?jiān)姮撟匀欢坏乜紤]到廣告商對(duì)內(nèi)容生成產(chǎn)品的付費(fèi)意愿。
不過,對(duì)內(nèi)容生產(chǎn)有強(qiáng)烈需求的不僅是娛樂行業(yè),“Yuan初”的定位是給所有需要進(jìn)行市場(chǎng)推廣、自我展示的從業(yè)者。這種需求是十分剛性的:首先,國內(nèi)外對(duì)版權(quán)都很重視,當(dāng)大家不得不配圖的時(shí)候,AI設(shè)計(jì)圖片不會(huì)面臨圖庫圖片的版權(quán)紛爭。
其次,線上圖片實(shí)際上存在“供不應(yīng)求”的問題,如果大家因?yàn)槭褂脠D庫的圖片而遭遇圖片“撞車”,以國外為例,Google會(huì)把內(nèi)容創(chuàng)作的權(quán)重降低,因?yàn)閳D片不夠原創(chuàng)性。
ZMO目前旗下有兩款產(chǎn)品,一款主打跨境電商,另一款是如今上線的“Yuan初”。雖然上線不久,但后者的客戶群已經(jīng)拓展得很寬:圖書編輯會(huì)使用它形成插畫,游戲開發(fā)者通過對(duì)游戲當(dāng)中角色的的描述生成角色形象再加以雕琢,網(wǎng)站設(shè)計(jì)師通過AI作圖來設(shè)計(jì)底稿并請(qǐng)客戶提出修改意見。ZMO的一位客戶是一家巧克力棒廠商,它的新品包裝還未設(shè)計(jì)出來,但產(chǎn)品又著急上線,就用AI一口氣生成了10個(gè)包裝提前進(jìn)行展示。(如下圖)
AI生成器甚至就像是想象力豐富的乙方,“甲方爸爸”提出的需求可以瞬間生成樣片。偶爾甲方的需求是一只賽博朋克的猴子,在埃菲爾鐵塔旁邊喝酒的考拉,這些天馬行空的想法對(duì)設(shè)計(jì)師來說這或許有些魔幻,但AI會(huì)結(jié)合不同風(fēng)格,例如漫畫風(fēng)、油畫風(fēng)、藝術(shù)風(fēng)、3D渲染風(fēng)等風(fēng)格來給出讓人想不到的圖片。
除了幫客戶解決生成問題,AI在機(jī)器學(xué)習(xí)之后結(jié)合流量分析形成了優(yōu)化推薦機(jī)制,ZMO因此與幾家客戶測(cè)試了效果。他們計(jì)算了CTR(Click-Through-Rate)即點(diǎn)擊通過率,觀察消費(fèi)者是否喜歡這些AI生成的圖片,目前來看,幾家客戶的CTR都被提升了2-3倍。
下一步,“Yuan初”的發(fā)力方向?qū)⑹?D模型與視頻。3D模型被認(rèn)為是最花時(shí)間的設(shè)計(jì)之一,由于要模擬真實(shí)的場(chǎng)景與人體,既耗費(fèi)資金又耗時(shí)間。不過,ZMO團(tuán)隊(duì)認(rèn)為AI算法足以生成低模3D模型,可以為客戶直接省錢提效。
另一個(gè)重要的功能是AI視頻生成。張?jiān)姮撎岬剑?/span>無論是文字、圖片還是3D、視頻,歸根結(jié)底都是要 形成好的內(nèi)容,能給到創(chuàng)作者去吸引流量,產(chǎn)生點(diǎn)贊、評(píng)論與轉(zhuǎn)發(fā),因此視頻制作的功能也會(huì)做得更豐富一些,可以讓客戶只輸入幾個(gè)關(guān)鍵詞與標(biāo)題,就能生成一整段文案,并且配上對(duì)應(yīng)的圖片,變成一個(gè)簡單的、擁有配音的視頻。而“Yuan初”的用戶只需要把用戶主流的需求收集并整理好,就能根據(jù)自己的受眾喜好去調(diào)試AI視頻內(nèi)容。
可以看出,ZMO的每項(xiàng)動(dòng)作,張?jiān)姮摱紝⑵鋵?dǎo)向商業(yè),即能否幫客戶省錢省時(shí)與賺錢。在她看來,所有與傳播和市場(chǎng)沾邊的工種都會(huì)是“Yuan初”的潛在用戶,而所有與傳播和市場(chǎng)相關(guān)的工作也都是企業(yè)需要砸錢完成的。就像電商行業(yè),一條裙子100元的售價(jià)之中,也許50元都要花去打廣告。
在流量最貴的當(dāng)今,AI應(yīng)當(dāng)扮演怎樣的角色?她認(rèn)為AI不應(yīng)該是一個(gè)高大上的概念,而應(yīng)當(dāng)是商業(yè)的解決方案。如果說“AI生成”是AI產(chǎn)業(yè)繼聲音、影像識(shí)別后的熱點(diǎn),那么這個(gè)熱點(diǎn)必須與商業(yè)緊密結(jié)合才會(huì)長久。
在蘋果與Google的經(jīng)歷塑造了張?jiān)姮摰南敕āK烟O果發(fā)新品笑稱為“發(fā)布火箭”,因?yàn)楣蹅兠看味计诖O果每年的發(fā)布會(huì)上可以發(fā)布像火箭一樣酷炫的潮品,但每次發(fā)布的卻都是與之前差不多的產(chǎn)品,會(huì)感到失望。
而這種情況在她看來又極其合理。蘋果的決策取決于對(duì)用戶的分析,她記得蘋果的同事們最開始對(duì)AirPods的策劃包含了不是奇特的想法,例如做一款透明的耳機(jī),或者讓耳機(jī)可以打火。但最后這些想法都被用戶的需求否定了。在那段經(jīng)歷中,她學(xué)到的是,只有對(duì)用戶有價(jià)值他們才會(huì)購買,只有產(chǎn)品賣得好一個(gè)部門才有更大的價(jià)值。她從蘋果學(xué)到了產(chǎn)品與技術(shù)的平衡:產(chǎn)品去駕馭技術(shù),技術(shù)為產(chǎn)品所用。
所以,創(chuàng)業(yè)后的張?jiān)姮撘步oZMO提出了一句slogan:消費(fèi)即生成,讓AI生成用戶愿意閱讀、點(diǎn)贊甚至消費(fèi)的內(nèi)容,才是落地的意義。
參考文獻(xiàn):
【1】Deep Unsupervised Learning using Nonequilibrium Thermodynamics, ICML'15
【2】Denoising Diffusion Probabilistic Model, DDPM'20
本文來自微信公眾號(hào)“GGV紀(jì)源資本”(ID:GGVCapital),作者:GGV投資筆記,36氪經(jīng)授權(quán)發(fā)布。