国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

AI寫小說、繪畫、剪視頻,生成式AI更火了!

科技云報道
+ 關注
2022-11-09 16:01
900次閱讀
AI寫小說、繪畫、剪視頻,生成式AI更火了!
近日,生成式AI又火了!一個叫做「盜夢師」的微信小程序,上線一鳴驚人,達成了日增5萬新用戶的紀錄。
盜夢師是一個能根據輸入文本生成圖片的AI平臺,屬于AIGC(AI-Generated Content,即人工智能生成內容)的分支。
在用戶發揮想象,輸入文字描述后,盜夢師便可生成1:1、9:16和16:9三種比例的圖片,還有24種繪畫風格可以選擇——除了基礎的油畫、水彩、素描等繪畫種類,還包括賽博朋克、蒸汽波、像素藝術、吉卜力和 CG 渲染等特別風格。
AI寫小說、繪畫、剪視頻,生成式AI更火了! 圖:科技云報道編輯用「盜夢師」微信小程序生成
事實上,這并不是第一款“以文生圖”的AI軟件。從Midjourney到Stable Diffusion,生成式AI一直是近兩年最炙手可熱的話題。
作為AI發展的一個重要方向,生成式AI具有非常大的發展潛力。
據Gartner上半年的數據,預計到 2025 年,生成式AI將占所有生成數據的10%,當前這一比例不到1%。
有觀點認為,2022年將是生成式AI從技術成熟到深入社會基本面的元年。
AI寫小說、繪畫、剪視頻,生成式AI更火了!
 生成式AI爆發式增長:
從圖片到視頻
最近幾年,AI技術在視覺領域的發展可謂是“神速”。
去年1月,致力于“用通用人工智能造福全人類”的OpenAI公司,基于GPT-3模型發布了劃時代的DALL-E,實現了從文本生成圖像。
今年4月份,OpenAI發布的第二代DALL-E 2模型,再次為圖像生成領域樹立了全新標桿。
用戶可以通過簡短的文本描述(prompt)來生成相應的圖像,使得不會畫畫的人也可以將自己的想象力變為藝術創作,例如“羊駝打籃球”這句話生成的四張圖片,看起來就非常符合大家預期的想象。
AI寫小說、繪畫、剪視頻,生成式AI更火了! DALL-E 2模型生成圖片示例
不僅如此,隨著文字描述的顆粒度不斷細化,生成的圖像也會越來越精準,效果在非專業人士看來已經相當震撼。
但DALL-E 2這樣的模型仍然停留在二維創作即圖片生成領域,無法生成360度無死角的3D模型。
不過這依舊難不住極具創意的算法研究員,Google Research的一項最新成果——DreamFusion模型,即可通過輸入簡單的文本提示生成3D模型,不僅能夠在不同的光照條件下進行渲染,而且生成的3D模型還具有密度、顏色等特性,甚至可以把生成的多個3D模型融合到一個場景里。
在生成3D圖片之后,Meta的算法人員將思路進一步打開,向更高難度發起挑戰,開始探索用文字提示來直接生成視頻。
雖然本質上來說,視頻就是一系列圖像的疊加,但相比于生成圖像,用文字來生成視頻時,不僅需要生成相同場景下的多個幀,還要保證相鄰幀之間的連貫性。由于訓練模型時可用的高質量視頻數據非常少,但計算量卻很大,大大增加了視頻生成任務的復雜性。
今年9月,來自Meta的研究人員發布了Make-A-Video,這是一個基于人工智能的高質量短視頻生成模型,相當于視頻版的DALL-E,也被戲稱為“用嘴做視頻”,即可以通過文本提示創建新的視頻內容,其背后使用的關鍵技術,也同樣來自DALL-E等圖像生成器所使用的“文本-圖像”合成技術。
僅1周之后,谷歌CEO皮查伊就接連官宣了兩個模型,來正面挑戰Meta的Make-A-Video,分別是Imagen Video與Phenaki。
與Make-A-Video相比,Imagen Video更加突出視頻的高清特性,能生成1280*768分辨率、每秒24幀的視頻片段,還能理解并生成不同藝術風格的作品;
理解物體的3D結構,在旋轉展示中不會變形;
甚至還繼承了Imagen準確描繪文字的能力,在此基礎上僅靠簡單描述產生各種創意動畫。
AI寫小說、繪畫、剪視頻,生成式AI更火了! Imagen Video生成視頻示例
而Phenaki則能根據200個詞左右的提示語生成2分鐘以上的較低分辨率長鏡頭,講述一個相對完整的故事。
AI寫小說、繪畫、剪視頻,生成式AI更火了! Phenaki生成視頻示例
目前,國內也有不少生成式AI的應用。
例如,字節跳動旗下的剪映APP提供AI生成視頻功能,并可以免費使用。
剪映的圖文成片功能和谷歌類似,創作者可以通過幾個關鍵詞或一小段文字,生成一段創意小視頻。
剪映還可以根據文字描述智能匹配視頻素材,將視頻包裝為更垂直的內容作品,包括財經、歷史、人文等類別。
2022年1月,網易推出一站式AI音樂創作平臺“網易天音”,將用戶編輯的新年祝福AI生成為歌曲,并在上半年推出了web端專業版。
2021年9月,彩云小夢APP上線,能夠進行各種類型文本創作,用戶只需要給出一個1-1000字的開頭,彩云小夢就能續寫出后面的故事。
事實上,AI創作還有多種形式。當生成式AI技術應用于寫稿,可以誕生機器版的記者、小說家、詩人、編劇等,而當它應用于繪畫、音樂和舞蹈領域時,則可以“培養”出畫家、作曲家和編舞人員。
AI寫小說、繪畫、剪視頻,生成式AI更火了!
生成式AI爆發的背后
過去一年里,生成式AI發展得更好了。谷歌、微軟、Meta等AI領域的軟件巨頭們已在內部推進該技術,讓生成式AI融合到自己的產品里。
為什么生成式AI突然就火了?
其實生成式AI技術一直在快速發展中,只不過之前因過高的技術門檻,多囿于科技界的小圈層。
回顧AI技術的發展歷程,會發現生成式AI的爆發離不開三個因素:更好的模型、更多的數據,和更多的計算。
2015年以前,小模型被認為是理解語言的“最先進技術”。這些小模型,擅長分析任務,并被部署在從預測交付時間到欺詐分類的工作中。
然而,對于通用的生成任務,它們的表達能力還不夠強。生成人類水平的寫作或者代碼,仍只是一個夢想。
2017年,谷歌研究院發布了一篇里程碑式的論文(Attention is All You Need),描述了一種用于自然語言理解的新神經網絡架構,稱為 transformers,可以生成質量上乘的語言模型,同時,具有更高的可并行性,需要的訓練時間也大大減少。
當然,隨著模型越來越大,它們開始顯現出超越人類的水平。從2015年到2020年,用于訓練這些模型的計算量增加了6個數量級,其結果在手寫、語音和圖像識別、閱讀理解以及語言理解方面,超過了人類性能的基準。
其中,OpenAI的GPT-3脫穎而出,該模型的性能比GPT-2有了巨大飛躍,從代碼生成到冷笑話寫作,顯示了更優秀的能力。
盡管有所有基礎研究領域的進展,這些模型并不普遍。
它們體積大、運行困難(需要GPU協調),不能廣泛使用(不可用或僅有封閉的測試版),而且作為云服務使用的費用昂貴。
但是盡管有這些限制,最早的生成性AI應用開始進入戰場。
之后,隨著計算變得更便宜,業界繼續開發更好的算法和更大的模型。
開發者的權限從封閉測試版擴大到了開放測試版,或者在某些情況下,開放源代碼。
如今,平臺層的穩固,加上模型繼續變得更好、更快、更便宜,以及模型的訪問趨向于免費和開源,AI應用層的創造力爆發時機已經成熟。
比如,今年8月,文本-圖像生成模型Stable Diffusion開源,后繼者能更好地借助這一開源工具,挖掘出更豐富的內容生態,為向更廣泛的C端用戶普及起到至關重要的作用。
Stable Diffusion的火爆,本質上就是開源釋放了創造力。
AI寫小說、繪畫、剪視頻,生成式AI更火了!
生成式AI面臨現實挑戰
風投機構紅杉資本在官網上的一篇博客文章中提到:“生成式AI有潛力產生數萬億美元的經濟價值。
”據紅杉資本預測,生成式AI可以改變每個需要人類創造原創作品的行業,從游戲到廣告再到法律。
具體而言,未來生成式AI的應用場景非常廣闊,除了文創、新聞等內容生產行業外,生成式AI在醫療保健、數字商業、制造業、農業等多個行業都有豐富的應用前景,如幫助醫生檢測X射線、CT等設備掃描中的病變、創建商品的數字孿生體、輔助檢測產品質量等。
在XR、數字孿生、自動駕駛汽車等熱門技術上也有豐富的應用空間。
但值得注意的是,當前生成式AI仍有很多問題需要解決。
如在文娛領域,不少人采用生成式AI進行創作的一個原因,就是可以避免版權問題,但這并不代表沒有隱患。
一方面,AI的創作也是將學習到數據按照要求重新組合起來,雖然顆粒度越來越細,但難免還是有眼尖的人會看出可能是參考了哪些作品,甚至有網友在社交平臺上表示曾在某AI生成圖片上隱約看到疑似簽名的痕跡。
另一方面,當前大部分AI生成平臺多不主張版權或明確表示可以進行商用,但隨著生成式AI逐步商業化,這樣的版權環境是否存在,是否會出現新的版權問題也是需要討論的。
生成式AI的邏輯與安全性也有待提升。當前的生成式AI很容易犯一些常識性的錯誤,在一些需要長期記憶的地方也容易出現問題。
如在AI生成小說的過程中,經常會因為篇幅較長而出現前后矛盾的地方。
因此,即便生成式AI已經可以在很多領域得到應用,真要讓生成式AI投入工作,還要通過大量的訓練來避免因AI的“錯誤”造成的重大損失。
畢竟醫療、制造業這些應用場景沒有文創行業那樣的試錯空間。
AI寫小說、繪畫、剪視頻,生成式AI更火了!
結語
盡管生成式AI當前還離不開人工干預,但不可否認的是,生成式AI仍具有非常大的發展潛力。
生成式AI的出現,意味著AI開始在現實內容中,承擔從“觀察、預測”拓展到“直接生成、決策”的新角色。換句話說,生成式AI是在創造,而不僅僅是分析。
正如OpenAI CEO Sam Altman所說:“生成式AI提醒我們,很難做出有關于人工智能的預測。
十年前傳統觀點認為:人工智能首先會影響體力勞動;然后,是認知勞動;然后,也許有一天它可以做創造性的工作。現在看起來,它會以相反的順序進行。”
本文來自微信公眾號“科技云報到”(ID:ITCloud-BD),作者:科技云報道,36氪經授權發布。
0
相關話題
AIGC賽道追蹤
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作