Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

新智元

+ 關注

2022-11-25 16:22

1897次閱讀

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

新智元報道

編輯：編輯部

【新智元導讀】大火的文本到圖像模型Stable Diffusion2.0版本來了，然而因為這個原因，廣大網友們鬧起來了。

昨天，Stability AI宣布，Stable Diffusion 2.0版本上線！

這個更新速度，可太神了。

1.0版本在今年8月出爐，三個月不到，還熱乎著呢，新版本就來了。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

Stable Diffusion 2.0

昨日，Stability AI在博客上發布了深度學習文本到圖像模型的最新版本——Stable Diffusion 2.0。

相較于1.0，新的算法比之前的更高效、更穩健。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

時間回到幾個月前，Stable Diffusion的發布，掀起了一場文本到圖像模型領域的新革命。

可以說，Stable Diffusion 1.0徹底改變了開源AI模型的性質，并且在全球范圍內催生了數百種新模型，和其他方面的進步。

它是最快達到10K Github star星數的項目之一，在不到兩個月的時間里飆升至33K星，在Github上的一眾項目中可以封神了。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

開發Stable Diffusion 1.0版本的團隊是Robin Rombach（Stability AI）和 Patrick Esser（Runway ML），他們來自LMU Munich CompVis Group。

在實驗室之前的Latent Diffusion Models基礎上，他們開發出了Stable Diffuision 1.0，并且得到了 LAION 和 Eleuther AI 的大力支持。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

這次的Stable Diffusion 2.0版本，具有強大的文本到圖像模型。

這個模型是由LAION在全新的文本編碼器OpenCLIP訓練的，跟1.0版本相比，它顯著提高了生成圖像的質量——這次的模型可以輸出默認分辨率為512×512像素和768×768像素的圖像。

使用Stable Diffusion 2.0生成的圖像示例，分辨率為768x768

模型在Stability AI的DeepFloyd團隊創建的LAION-5B數據集上進行訓練。

LAION-5B是一個包含58.5億個CLIP過濾圖像文本對的數據集，比LAION-400M大14倍，曾是世界上最大的可公開訪問的圖像文本數據集。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

訓練完成后，就使用LAION的NSFW過濾器進一步過濾，刪掉「成人內容」。

這對于很多網友來說，堪稱是「史詩級削弱」了……

LAION 5B的采集管道流程圖

2.0比1.0強在哪里？

具體來看，2.0比1.0有了哪些升級呢？

圖像生成質量明顯提升

上文我們已經看到，2.0版本中的文本轉圖像模型默認可以生成512x512 和 768x768 像素分辨率的圖像。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

超分辨率Upscaler擴散模型

Stable Diffusion 2.0包含了一個Upscaler Diffusion模型，這個模型可以將圖像分辨率提高四倍。

左圖：128x128 低分辨率圖像。右圖：Upscaler 生成的 512x512 分辨率圖像

可以看出，這個模型將低質量生成圖像 (128×128) 放大為更高分辨率圖像 (512×512) 。

有了Upscaler Diffusion的加持，Stable Diffusion 2.0與以前的文本到圖像模型結合使用時，可以生成分辨率為2048×2048或更高的圖像。

depth2img深度圖像擴散模型

團隊采用了一種新的深度引導(depth-guided)穩定擴散模型——depth2img。

它擴展了1.0之前的圖像到圖像功能，為創意應用提供了全新的可能性。

通過使用現有模型，Depth2img能夠推斷輸入圖像的深度，然后使用文本和深度信息生成新圖像。

左邊的輸入圖像可以產生幾個新圖像（右邊）。這種新模型可用于保持結構的圖像到圖像和形狀條件圖像合成(structure-preserving image-to-image and shape-conditional image synthesis)

Depth-to-Image

Depth-to-Image 可以提供各種新的創意應用程序，轉換后的圖像看起來與原始圖像截然不同，但仍保持了圖像的連貫性和深度。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

更新文本引導修復擴散模型

此外，這次更新還引入了一個新的文本引導(text-guided)修復模型，在新的Stable Diffusion 2.0文本到圖像的基礎上進行了調整，這樣，用戶就可以非常智能、快速地替換圖像的部分內容。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

更新后的修復模型在 Stable Diffusion 2.0 文本到圖像模型上進行了微調

過濾掉一些NSFW（不可描述）的內容

經過LAION的NSFW過濾器，「成人內容」都會被砍掉。

總結一下，Stable Diffusion 2 的更新如下——

新的SD模型提供了768×768的分辨率。
U-Net的參數數量與1.5版相同，但它是從頭開始訓練的，并使用OpenCLIP-ViT/H作為其文本編碼器。一個所謂的v預測模型是SD 2.0-v。
上述模型是由SD 2.0-base調整而來，它也是可用的，并作為典型的噪聲預測模型在512×512圖像上進行訓練。
增加了一個具有x4比例的潛在文本引導的擴散模型。
完善的SD 2.0基礎的深度引導的穩定擴散模型。該模型可用于結構保留的img2img和形狀條件合成，并以MiDaS推導的單眼深度估計為條件。
在SD2.0的基礎上建立了一個改進的文字引導的繪畫模型。

在博客最后，Stability AI團隊激動地說——

就像Stable Diffusion的第一次迭代一樣，我們努力優化模型，讓它在單個GPU 上運行，因為我們希望從一開始就讓盡可能多的人可以使用它。

我們已經看到，當數百萬網友接觸到這些模型時，他們共同創造了一些令人驚嘆的作品。

這就是開源的力量：挖掘數百萬有才華的人的巨大潛力。他們可能沒有資源來訓練最先進的模型，但他們有能力用一個模型創造令人難以置信的成果。

這個新版本及其強大的新功能，將成為無數應用程序的基礎，并激發人們全新的創造潛力。

第一家AI繪畫「獨角獸」

作為機器學習模型的一種，「文本-圖像模型」能夠將自然語言描述作為輸入并生成與該描述匹配的圖像。

它們通常結合了語言模型和生成圖像模型：語言模型將輸入文本轉換為潛在表示，生成圖像模型則將該表示作為條件生成圖像。

最有效的「文本-圖像模型」，通常是根據從網絡上抓取的大量圖像和文本數據進行訓練的。

依托深度神經網絡技術的飛速進步，「文本-圖像模型」從2015年開始獲得廣泛重視。

OpenAI的DALL-E、Google Brain的Imagen等，都能輸出質量與真實照片相接近的繪畫作品。

Stability AI創建的繪畫平臺Stable Diffusion，則成為領域殺出的一匹「黑馬」。

Stable Diffusion的母公司Stability AI，成立于2020年，總部位于倫敦。

公司背后的出資人是數學家、計算機科學家Emad Mostaque，來自孟加拉國，今年39歲。

Mostaque畢業于牛津大學數學和計算機科學學院，曾在一家對沖基金公司工作過13年。

憑借Stability AI和他的私人財富，Mostaque希望能夠培育一個開源AI研究社區。他的創業公司之前就支持創建「LAION 5B」數據集。

為了訓練Stable Diffusion的模型，Stability AI為服務器提供了4,000個Nvidia A100 GPU。

與OpenAI旗下多款AI工具平臺不同，開發者可以免費下載Stability AI的底層代碼，來訓練自己的模型。

Stability AI官網頂部的Slogan「AI by the people,for the people」，正是這種價值觀的最好詮釋。

「人類面臨的一些重大挑戰有望通過AI解決，」Emad Mostaque表示，「但只有當這項技術面向所有人時，我們才可能達成這一目標。」

「除了我們的75名員工之外，沒有任何其他人擁有決策權——無論是億萬富翁、大型基金，還是政府，我們是完全獨立的。」Mostaque說，「我們計劃使用我們的計算來加速基礎人工智能的開源。」

Stable Diffusion是Stability AI獨立研發的「文本到圖像模型」，于2022年8月發布，一經推出便迅速被一眾網友玩瘋了。

比如被變成黑寡婦的馬院士——

作為目前可用性最高的開源模型，Stable Diffusion在短短2個月的時間里已經被全球超過20萬名開發者下載和使用。

Stability AI面向消費者的產品名為DreamStudio，目前已經擁有超過100萬名注冊用戶——他們共同創建了超過1.7億張圖像。

今年10月，Stable Diffusion母公司Stability AI獲得了由全球風險投資公司Lightspeed Venture Partners和Coatue Management領投的1.01億美元融資，估值突破了10億美元，也是AI繪畫領域的第一家「獨角獸」。

11月24日，剛剛完成融資的Stability AI便發布了2.0版本，這也讓我們對Stable Diffusion的未來產生了更多期待。

網友：體驗下降，差評！

不過在國外社交媒體上，不少網友卻對Stable Diffusion的本次更新給出了「差評」，理由自然是「模型生成NSFW內容和圖片的能力被削弱了」。

是的，這次模型的關鍵組件功能被改進，使得Stable Diffusion更難生成某些引起爭議和批評的圖像了，比如廣受歡迎的裸體和色情內容、名人的逼真照片以及模仿特定藝術家作品的圖像。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

「他們削弱了模型，」一位用戶在Stable Diffusion的reddit上評論道，還獲得了208次點贊，完全能代表廣大網友的心聲。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

另一位用戶則表示：「他們切除并『閹割』了模特。沒有藝術，沒有人體的自然美，沒有畫家和攝影師最好的作品中描繪的生死戲劇，這比丑陋本身還要糟糕。」

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

NSFW的全稱是「Not Suitable For Work」，簡單講就是一些不適合上班時間瀏覽的東東。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

與OpenAI的DALL-E等「競爭對手」不同，Stable Diffusion是一款完全開源的軟件。這允許社區的小伙伴一同開發、改進這款產品，并讓開發人員免費將其集成到他們的產品中。

Stable Diffusion「背后的男人」Emad Mostaque曾將它比作「披薩基地」，任何人都可以添加他們選擇的成分（訓練數據）。

Stability AI首席執行官Emad Mostaque

「一個好的模型應該可以供所有人使用，如果你想添加東西，那就加。」他在Discord上表示。

這意味著Stable Diffusion在使用方式上的限制比較少，但也因此，它招致了大量批評。

Stable Diffusion和其他圖像生成模型在未經藝術家同意的情況下，在他們的作品上進行訓練，并重現他們作品的風格，許多藝術家大為光火。

Stable Diffusion生成特定藝術家風格圖像的能力十分強大

這種AI式復制是否合法？目前，這在法律上還是一個懸而未決的問題。

專家表示，在受版權保護的數據上訓練人工智能模型可能是合法的，但某些用例可能會在法庭上受到質疑。

可以猜測，Stability AI對模型所做的更改是為了減輕這些潛在的法律挑戰。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

這次2.0版本的更新，對軟件編碼和檢索數據的方式進行更改，因此，模型復制藝術家作品的能力大大降低。

正統藝術家滿意了，創造力爆棚的「成人藝術家」們卻很憤怒。

此前，Stable Diffusion就因「澀圖生成神器」之名蜚聲海內外。

老司機們用它生成一些極具真實感和動漫風格的NSFW內容，甚至包括一些特定個人的NSFW圖像（也稱非自愿色情）和虐待兒童的圖像。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

前兩天，一款專門生成高質量色情內容而量身定制的AI系統「Unstable Diffusion」應運而生。

此后，大量Reddit和4chan的網民火速用Unstable Diffusion生成了逼真的裸體圖像，被「老司機」們玩出了花。

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

在軟件官方Discord中談到2.0版本的變化時，Mostaque也承認這正是Stable Diffusion從訓練數據中刪除裸體和色情圖片的初心。

「在開放模式中不能有兒童和NSFW，」Mostaque說，「因為這兩種圖像可以結合起來制作兒童性虐待素材。」

「在兒童和NSFW中，我們只能選擇一個。」

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

不過在Stable Diffusion的reddit上，一位用戶認為「違背了開源社區的精神哲學」，因為刪除NSFW內容設立了「審查制度」。

「選擇是否制作NSFW內容的權力，應該掌握在用戶手中，而不是由審查模式來評判。」

但已經有聰明的網友很快就想通了，安慰了他——

Stable Diffusion是開源的，這意味著「這類」訓練數據可以很容易地添回第三方版本，而且新軟件不會影響早期版本。

參考資料：

https://stability.ai/blog/stable-diffusion-v2-release

https://twitter.com/StabilityAI/status/1595590319566819328?ref_src=twsrc%5Etfw

https://www.reddit.com/r/StableDiffusion/comments/z3ferx/comment/ixlmkkj/?utm_source=share&utm_medium=web2x&context=3

https://theverge.vip/2022/11/24/23476622/ai-image-generator-stable-diffusion-version-2-nsfw-artists-data-changes

本文來自微信公眾號“新智元”（ID:AI_era），作者：新智元，36氪經授權發布。

新智元

Copy.ai

3.7

40條點評

咨詢產品

免費試用

體驗AI內容生成器的全部功能，可以在幾秒鐘內提供優質結果。

樹熊文思捕手

2.0

6條點評

咨詢產品

免費試用

文思捕手是全球同步采用驅動ChatGPT的OpenAI原生API的商用AI人工智能創作平臺。

客戶案例

暫無

合作品牌

DOCQ

3條點評

咨詢產品

免費試用

一家文檔辦公服務提供商，為用戶提供多樣的云端存儲與辦公條件

火龍果寫作

1條點評

咨詢產品

免費試用

AI驅動的文字生產力工具

火山寫作

0條點評

咨詢產品

免費試用

字節跳動旗下團隊推出的英語寫作助手

相關產品

查看更多同類產品

国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

Stable Diffusion再迎重磅更新！2.0版「澀圖」功能被砍，網友狂打差評

【新智元導讀】大火的文本到圖像模型Stable Diffusion2.0版本來了，然而因為這個原因，廣大網友們鬧起來了。

項目管理SaaS為什么很難一家獨大？答案藏在中小企業的痛點里

僑外出國x美洽：多渠道客資增長工具——高效獲客新解法

2021年玩私域：不懂這些你就OUT了！

企業為什么要買SaaS？| 專家視角

SCRM如何幫助李佳琦們布局私域流量？