AI寫小說、繪畫、剪視頻，生成式AI更火了！

科技云報道

+ 關注

2022-11-09 16:01

925次閱讀

近日，生成式AI又火了！一個叫做「盜夢師」的微信小程序，上線一鳴驚人，達成了日增5萬新用戶的紀錄。

盜夢師是一個能根據輸入文本生成圖片的AI平臺，屬于AIGC（AI-Generated Content，即人工智能生成內容）的分支。

在用戶發揮想象，輸入文字描述后，盜夢師便可生成1:1、9:16和16:9三種比例的圖片，還有24種繪畫風格可以選擇——除了基礎的油畫、水彩、素描等繪畫種類，還包括賽博朋克、蒸汽波、像素藝術、吉卜力和 CG 渲染等特別風格。

圖：科技云報道編輯用「盜夢師」微信小程序生成

事實上，這并不是第一款“以文生圖”的AI軟件。從Midjourney到Stable Diffusion，生成式AI一直是近兩年最炙手可熱的話題。

作為AI發展的一個重要方向，生成式AI具有非常大的發展潛力。

據Gartner上半年的數據，預計到 2025 年，生成式AI將占所有生成數據的10%，當前這一比例不到1%。

有觀點認為，2022年將是生成式AI從技術成熟到深入社會基本面的元年。

生成式AI爆發式增長：

從圖片到視頻

最近幾年，AI技術在視覺領域的發展可謂是“神速”。

去年1月，致力于“用通用人工智能造福全人類”的OpenAI公司，基于GPT-3模型發布了劃時代的DALL-E，實現了從文本生成圖像。

今年4月份，OpenAI發布的第二代DALL-E 2模型，再次為圖像生成領域樹立了全新標桿。

用戶可以通過簡短的文本描述（prompt）來生成相應的圖像，使得不會畫畫的人也可以將自己的想象力變為藝術創作，例如“羊駝打籃球”這句話生成的四張圖片，看起來就非常符合大家預期的想象。

DALL-E 2模型生成圖片示例

不僅如此，隨著文字描述的顆粒度不斷細化，生成的圖像也會越來越精準，效果在非專業人士看來已經相當震撼。

但DALL-E 2這樣的模型仍然停留在二維創作即圖片生成領域，無法生成360度無死角的3D模型。

不過這依舊難不住極具創意的算法研究員，Google Research的一項最新成果——DreamFusion模型，即可通過輸入簡單的文本提示生成3D模型，不僅能夠在不同的光照條件下進行渲染，而且生成的3D模型還具有密度、顏色等特性，甚至可以把生成的多個3D模型融合到一個場景里。

在生成3D圖片之后，Meta的算法人員將思路進一步打開，向更高難度發起挑戰，開始探索用文字提示來直接生成視頻。

雖然本質上來說，視頻就是一系列圖像的疊加，但相比于生成圖像，用文字來生成視頻時，不僅需要生成相同場景下的多個幀，還要保證相鄰幀之間的連貫性。由于訓練模型時可用的高質量視頻數據非常少，但計算量卻很大，大大增加了視頻生成任務的復雜性。

今年9月，來自Meta的研究人員發布了Make-A-Video，這是一個基于人工智能的高質量短視頻生成模型，相當于視頻版的DALL-E，也被戲稱為“用嘴做視頻”，即可以通過文本提示創建新的視頻內容，其背后使用的關鍵技術，也同樣來自DALL-E等圖像生成器所使用的“文本-圖像”合成技術。

僅1周之后，谷歌CEO皮查伊就接連官宣了兩個模型，來正面挑戰Meta的Make-A-Video，分別是Imagen Video與Phenaki。

與Make-A-Video相比，Imagen Video更加突出視頻的高清特性，能生成1280*768分辨率、每秒24幀的視頻片段，還能理解并生成不同藝術風格的作品；

理解物體的3D結構，在旋轉展示中不會變形；

甚至還繼承了Imagen準確描繪文字的能力，在此基礎上僅靠簡單描述產生各種創意動畫。

Imagen Video生成視頻示例

而Phenaki則能根據200個詞左右的提示語生成2分鐘以上的較低分辨率長鏡頭，講述一個相對完整的故事。

Phenaki生成視頻示例

目前，國內也有不少生成式AI的應用。

例如，字節跳動旗下的剪映APP提供AI生成視頻功能，并可以免費使用。

剪映的圖文成片功能和谷歌類似，創作者可以通過幾個關鍵詞或一小段文字，生成一段創意小視頻。

剪映還可以根據文字描述智能匹配視頻素材，將視頻包裝為更垂直的內容作品，包括財經、歷史、人文等類別。

2022年1月，網易推出一站式AI音樂創作平臺“網易天音”，將用戶編輯的新年祝福AI生成為歌曲，并在上半年推出了web端專業版。

2021年9月，彩云小夢APP上線，能夠進行各種類型文本創作，用戶只需要給出一個1-1000字的開頭，彩云小夢就能續寫出后面的故事。

事實上，AI創作還有多種形式。當生成式AI技術應用于寫稿，可以誕生機器版的記者、小說家、詩人、編劇等，而當它應用于繪畫、音樂和舞蹈領域時，則可以“培養”出畫家、作曲家和編舞人員。

生成式AI爆發的背后

過去一年里，生成式AI發展得更好了。谷歌、微軟、Meta等AI領域的軟件巨頭們已在內部推進該技術，讓生成式AI融合到自己的產品里。

為什么生成式AI突然就火了？

其實生成式AI技術一直在快速發展中，只不過之前因過高的技術門檻，多囿于科技界的小圈層。

回顧AI技術的發展歷程，會發現生成式AI的爆發離不開三個因素：更好的模型、更多的數據，和更多的計算。

2015年以前，小模型被認為是理解語言的“最先進技術”。這些小模型，擅長分析任務，并被部署在從預測交付時間到欺詐分類的工作中。

然而，對于通用的生成任務，它們的表達能力還不夠強。生成人類水平的寫作或者代碼，仍只是一個夢想。

2017年，谷歌研究院發布了一篇里程碑式的論文（Attention is All You Need），描述了一種用于自然語言理解的新神經網絡架構，稱為 transformers，可以生成質量上乘的語言模型，同時，具有更高的可并行性，需要的訓練時間也大大減少。

當然，隨著模型越來越大，它們開始顯現出超越人類的水平。從2015年到2020年，用于訓練這些模型的計算量增加了6個數量級，其結果在手寫、語音和圖像識別、閱讀理解以及語言理解方面，超過了人類性能的基準。

其中，OpenAI的GPT-3脫穎而出，該模型的性能比GPT-2有了巨大飛躍，從代碼生成到冷笑話寫作，顯示了更優秀的能力。

盡管有所有基礎研究領域的進展，這些模型并不普遍。

它們體積大、運行困難（需要GPU協調），不能廣泛使用（不可用或僅有封閉的測試版），而且作為云服務使用的費用昂貴。

但是盡管有這些限制，最早的生成性AI應用開始進入戰場。

之后，隨著計算變得更便宜，業界繼續開發更好的算法和更大的模型。

開發者的權限從封閉測試版擴大到了開放測試版，或者在某些情況下，開放源代碼。

如今，平臺層的穩固，加上模型繼續變得更好、更快、更便宜，以及模型的訪問趨向于免費和開源，AI應用層的創造力爆發時機已經成熟。

比如，今年8月，文本-圖像生成模型Stable Diffusion開源，后繼者能更好地借助這一開源工具，挖掘出更豐富的內容生態，為向更廣泛的C端用戶普及起到至關重要的作用。

Stable Diffusion的火爆，本質上就是開源釋放了創造力。

生成式AI面臨現實挑戰

風投機構紅杉資本在官網上的一篇博客文章中提到：“生成式AI有潛力產生數萬億美元的經濟價值。

”據紅杉資本預測，生成式AI可以改變每個需要人類創造原創作品的行業，從游戲到廣告再到法律。

具體而言，未來生成式AI的應用場景非常廣闊，除了文創、新聞等內容生產行業外，生成式AI在醫療保健、數字商業、制造業、農業等多個行業都有豐富的應用前景，如幫助醫生檢測X射線、CT等設備掃描中的病變、創建商品的數字孿生體、輔助檢測產品質量等。

在XR、數字孿生、自動駕駛汽車等熱門技術上也有豐富的應用空間。

但值得注意的是，當前生成式AI仍有很多問題需要解決。

如在文娛領域，不少人采用生成式AI進行創作的一個原因，就是可以避免版權問題，但這并不代表沒有隱患。

一方面，AI的創作也是將學習到數據按照要求重新組合起來，雖然顆粒度越來越細，但難免還是有眼尖的人會看出可能是參考了哪些作品，甚至有網友在社交平臺上表示曾在某AI生成圖片上隱約看到疑似簽名的痕跡。

另一方面，當前大部分AI生成平臺多不主張版權或明確表示可以進行商用，但隨著生成式AI逐步商業化，這樣的版權環境是否存在，是否會出現新的版權問題也是需要討論的。

生成式AI的邏輯與安全性也有待提升。當前的生成式AI很容易犯一些常識性的錯誤，在一些需要長期記憶的地方也容易出現問題。

如在AI生成小說的過程中，經常會因為篇幅較長而出現前后矛盾的地方。

因此，即便生成式AI已經可以在很多領域得到應用，真要讓生成式AI投入工作，還要通過大量的訓練來避免因AI的“錯誤”造成的重大損失。

畢竟醫療、制造業這些應用場景沒有文創行業那樣的試錯空間。

結語

盡管生成式AI當前還離不開人工干預，但不可否認的是，生成式AI仍具有非常大的發展潛力。

生成式AI的出現，意味著AI開始在現實內容中，承擔從“觀察、預測”拓展到“直接生成、決策”的新角色。換句話說，生成式AI是在創造，而不僅僅是分析。

正如OpenAI CEO Sam Altman所說：“生成式AI提醒我們，很難做出有關于人工智能的預測。

十年前傳統觀點認為：人工智能首先會影響體力勞動；然后，是認知勞動；然后，也許有一天它可以做創造性的工作。現在看起來，它會以相反的順序進行。”

本文來自微信公眾號“科技云報到”（ID:ITCloud-BD），作者：科技云報道，36氪經授權發布。

科技云報道

Copy.ai

3.7

40條點評

咨詢產品

免費試用

體驗AI內容生成器的全部功能，可以在幾秒鐘內提供優質結果。

樹熊文思捕手

2.0

6條點評

咨詢產品

免費試用

文思捕手是全球同步采用驅動ChatGPT的OpenAI原生API的商用AI人工智能創作平臺。

客戶案例

暫無

合作品牌

DOCQ

3條點評

咨詢產品

免費試用

一家文檔辦公服務提供商，為用戶提供多樣的云端存儲與辦公條件

火龍果寫作

1條點評

咨詢產品

免費試用

AI驅動的文字生產力工具

火山寫作

0條點評

咨詢產品

免費試用

字節跳動旗下團隊推出的英語寫作助手

相關產品

查看更多同類產品

相關話題

AIGC賽道追蹤

国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

AI寫小說、繪畫、剪視頻，生成式AI更火了！

項目管理SaaS為什么很難一家獨大？答案藏在中小企業的痛點里

2021年玩私域：不懂這些你就OUT了！

企業為什么要買SaaS？| 專家視角

SCRM如何幫助李佳琦們布局私域流量？

“救命文檔”打破信息孤島，讓受災群眾不再成為“孤島”