南都|一覽科技羅江春:Sora掀開內容產業AI革命新篇章
春節期間,OpenAI又放大招,旗下視頻生成模型Sora連登熱搜。在文生視頻的浪潮下,大眾關心的話題也從科技的發展延伸到了自身,AI會搶走哪些人的工作?還有哪些新職業會因此出現?在此背景下,2月24日,一覽科技創始人、CEO羅江春受邀做客南方都市報直播間,與硅基智能創始人、董事長、CEO司馬華鵬,浙江大學計算機科學與技術學院副教授金小剛一同,就Sora沖擊波可能造成哪些影響,中外大模型產品的差距是否拉大,文生圖領域面臨的職業新機遇和新挑戰等問題進行了一場精彩交流。
在OpenAI出具的技術報告中,將Sora稱為“世界模擬器”。OpenAI認為,視頻生成模型是構建通用物理世界模擬器的一條有前景的道路,怎么理解這個說法?
金小剛:Sora并不足以稱之為“世界模擬器”。Sora本質上是一個用數據喂出來的產品,用自回歸的方式獲得的統計意義上的結果,是 ‘大數據、大模型、大算力’的暴力計算得出的。這樣的大模型不可能真正理解真實的世界。因為統計歸納方法本身是有很大缺點的。真實世界的復雜性遠遠高于模型的復雜性,用現有的知識歸納出來的東西,是遠遠不足以對付復雜世界的。所以這個‘世界模型’的說法顯然是有問題的。
羅江春:這個事情我可能有點不同的觀點,我一直在做視頻,在視頻行業待了20多年。首先Sora提出的“世界模擬器”核心指的是如何在視頻場景里模擬真實的世界,它并沒有超出Video這個領域。其他大模型生成視頻,是通過一秒鐘24張圖片連貫播放做到的,但是Sora發布的視頻有鏡頭概念。我認為它的核心是建了一個虛擬的視頻素材的世界模型,然后用這里面的東西去推導,比如高速的轉彎,小狗往前跑怎么轉換場景,它模擬的狗的眼睛也好,人的眼睛也好,視覺攝像頭也好,怎么來進行事物的轉換。從這個角度來說,我覺得Sora的技術還是挺令人震撼的,我很期待能用它的產品。
司馬華鵬:我認為Sora呈現的視頻應該是達到了“世界模型”的程度,從各個角度來看,它的一致性,它的仿真,對物理、流體力學等定律的遵守,包括鏡頭的切換等都是非常好的。所以它一定是一個世界模型,而且這個世界模型是目前所有的公司和組織都難以望其項背的,當然也是我們奮起直追的目標。
議題二
在視頻生成模型領域,國內也有多家企業布局。怎么看待國內企業和國際頭部企業的差距?
羅江春:其實一覽從成立之初就一直在嘗試將AI技術跟視頻相結合,2018年我們提到一個概念叫RGC(Robot Generated Content),其實跟今天的AIGC(Artificial Intelligence Generated Content)是一個意思,唯一的差別在于2018年我們在做RGC的時候底層是沒有大模型的,那時候腳本我們得自己寫。文生視頻要怎么實現呢?一定要還原三個最關鍵的環節,分別是腳本、素材和剪輯。腳本包括創意、情節和場景,這些都需要通過大模型描述清楚,而且要拆成鏡頭;接著通過這些鏡頭,進行畫圖、建模,形成素材;第三步則是根據素材庫進行后期剪輯、特效。而這些應該是可以在Sora整個模型里完成的,它肯定不是用的圖片,肯定有鏡頭才會看起來這么真實,這后面實際上算力的使用是很龐大的。
回過頭來回答主持人這個問題,其實目前從技術上說國內外的差距是在拉大的。之前ChatGPT剛出來的時候很多國內公司說很快就能趕上3.5,結果OpenAI很快就推出了4.0、GPTs、再到現在的Sora。就感覺好像人家研究一天,我們又搞了一年,速度完全跟不上。關鍵還得有天才的團隊、天才的idea以及有大量的資金投入,實實在在去做才會有一個像樣的東西來。我是學AI出身的,1997-2000年在美國萊斯大學計算機系讀Artificial Intelligence。我覺得面對(國內外)差距越拉越大,我們得奮起直追,需要不計成本、不計代價,要不然的話又會像芯片一樣被人卡住。
司馬華鵬:在正視差距的同時,我們也要有追趕的信心。事實上,我們硅基智能在海外的團隊也在追蹤這件事,大家都在不斷地探索這塊的原理和對應的實現方法。如果國內大廠、很多創業公司都參與的話,我覺得在半年里也應該會有一些能達到他們大概七八成的產品出來。硅基智能在數字人領域深耕了六年,在這一細分賽道上硅基智能已經領先很多國外同行,我們肯定要正視差距,只要有一線的機會我們都會去做。我們也都在各自領域找到了一些彎道超車的賽道在做。
議題三
隨著以Sora為代表的視頻生成模型的成熟、廣泛應用,未來有哪些行業會受到深刻的影響?
羅江春:這個我想用克萊頓·克里斯坦森的《創新者的窘境》理論,就是一個革命性的新技術出現的時候,先被取代的是不被注意的低端產品。在內容產業,圖文肯定會最先被顛覆,隨后是短視頻、短劇,接下來則是影視行業。我相信很快就會有AI驅動的影視劇公司出現了。一到三年之內,出現一個純AI的爆款電影,這是有可能的。沒有明星,沒有導演,就是一幫人想了一個idea,拍攝方式完全就顛覆了。這對于影視劇公司來說肯定會面臨很大的挑戰,挑戰的分水嶺在哪里呢?就是第一部AI電影,而且是爆款。
現在這個趨勢其實已經很明顯了。已經有很多創作者在使用一覽科技的AIGC全域工作流生產大量的圖文,很多時候你在頭條上看到的文章,都不知道是人寫的還是AI寫的,很難判斷。然后侵蝕到短視頻、短劇、影視劇。我覺得它會從低端到高端,逐漸重塑整個產業。
司馬華鵬:影視企業必然會受到沖擊,傳統的內容平臺也會被顛覆。另外,能源和芯片行業肯定也會受到巨大影響,因為Sora可能會吞噬掉世界上九成以上的顯卡,這是很可怕的,大家表面上看到沖擊的是這些視頻生成所影響的產業,但如果它生成的視頻大規模地充斥世界,它背后所能夠聚攏的顯卡資源會越來越多。今天在所有的創業公司里,訓練大模型對應的顯卡的資源已經是非常的不均衡分布了。
AI競爭的背后,本質上是顯卡的競爭,算力的競爭,芯片的競爭。目前在前端的算法上,國內企業可能半年到一年就能追上,但在算力上的追趕是很難的,當你達到同等的效果的時候,對方的市場規模,以及對方在市場上的品牌認知、用戶量都鎖死之后,再追上是非常難的了。我們最終會因為沒有芯片可用,沒有這樣的算力可用而輸掉競爭。
羅江春:我回應一下司馬總說的芯片這個事,其實我是很悲觀的,為什么呢?就是我們能追上它的效果,但是當追上的時候,它已經虹吸了很多的內容創作者、資金、算力在它的平臺上,只可能在局部的demo可能做的差不多,但是實際的Production這個level上我們其實是越差越遠的,而且是越追越難。更何況OpenAI手上到底還有多少張牌,我們其實尚未可知。
議題四
哪些工作可能會因為視頻生成模型的出現而消失?又可能會出現哪些新職業?
金小剛:這類工具對于普通公眾來說會帶來巨大的信息和能力的不對稱性,如果用于詐騙,將帶來不可估量的影響,所以在科技探索的同時,在監管上需要跟上。從教育的角度來思考,我們的教育不能滿足于對于已有知識的背誦與綜合,要著眼于好奇心的培養,激發學生對于未知的探索。教育不是去培養一個跟ChatGPT競爭的人,而是培養打造ChatGPT的人,根本上來說要培養創新者。
羅江春:可能每個行業都會受到沖擊,但速度有所區別。設計師我想還是依然會存在的,因為他有審美,AI會讓他的效率提升,我們現在在繪圖產品上加了很多功能,包括怎么擴展、擦除、局部修改,都是為了設計師去做的。導演可能也還是需要的,因為他有很多鏡頭、轉場的技巧,基本的審美。但是可能不需要在某個方面特別專業的人才,因為越專業的工作,越能用程序描述清楚的東西,硅基超越碳基是越有機會的。如果是一些要發揮創造力、想象力的工作,這些職業改變應該會慢一點。
司馬華鵬:AI對于所有的產業而言,都能帶來非常大的進步。今天有非常多的科學發現,都已經開始借助AI在做了。科學發展到這個階段,有一些焦慮和憂慮很正常,當然我們也要奮起直追。
稿件整理自南方都市報報道
原標題:Sora制造AI焦慮?或引發內容行業變革,算力、芯片之爭
采寫:南都、N視頻記者 汪陳晨 林文琪