Stable Diffusion再迎重磅更新!2.0版「澀圖」功能被砍,網友狂打差評
新智元報道
【新智元導讀】大火的文本到圖像模型Stable Diffusion2.0版本來了,然而因為這個原因,廣大網友們鬧起來了。
昨天,Stability AI宣布,Stable Diffusion 2.0版本上線!
這個更新速度,可太神了。
1.0版本在今年8月出爐,三個月不到,還熱乎著呢,新版本就來了。
Stable Diffusion 2.0
昨日,Stability AI在博客上發布了深度學習文本到圖像模型的最新版本——Stable Diffusion 2.0。
相較于1.0,新的算法比之前的更高效、更穩健。
時間回到幾個月前,Stable Diffusion的發布,掀起了一場文本到圖像模型領域的新革命。
可以說,Stable Diffusion 1.0徹底改變了開源AI模型的性質,并且在全球范圍內催生了數百種新模型,和其他方面的進步。
它是最快達到10K Github star星數的項目之一,在不到兩個月的時間里飆升至33K星,在Github上的一眾項目中可以封神了。
開發Stable Diffusion 1.0版本的團隊是Robin Rombach(Stability AI)和 Patrick Esser(Runway ML),他們來自LMU Munich CompVis Group。
在實驗室之前的Latent Diffusion Models基礎上,他們開發出了Stable Diffuision 1.0,并且得到了 LAION 和 Eleuther AI 的大力支持。
這次的Stable Diffusion 2.0版本,具有強大的文本到圖像模型。
這個模型是由LAION在全新的文本編碼器OpenCLIP訓練的,跟1.0版本相比,它顯著提高了生成圖像的質量——這次的模型可以輸出默認分辨率為512×512像素和768×768像素的圖像。
使用Stable Diffusion 2.0生成的圖像示例,分辨率為768x768
模型在Stability AI的DeepFloyd團隊創建的LAION-5B數據集上進行訓練。
LAION-5B是一個包含58.5億個CLIP過濾圖像文本對的數據集,比LAION-400M大14倍,曾是世界上最大的可公開訪問的圖像文本數據集。
訓練完成后,就使用LAION的NSFW過濾器進一步過濾,刪掉「成人內容」。
這對于很多網友來說,堪稱是「史詩級削弱」了……
LAION 5B的采集管道流程圖
2.0比1.0強在哪里?
具體來看,2.0比1.0有了哪些升級呢?
圖像生成質量明顯提升
上文我們已經看到,2.0版本中的文本轉圖像模型默認可以生成512x512 和 768x768 像素分辨率的圖像。
超分辨率Upscaler擴散模型
Stable Diffusion 2.0包含了一個Upscaler Diffusion模型,這個模型可以將圖像分辨率提高四倍。
左圖:128x128 低分辨率圖像。右圖:Upscaler 生成的 512x512 分辨率圖像
可以看出,這個模型將低質量生成圖像 (128×128) 放大為更高分辨率圖像 (512×512) 。
有了Upscaler Diffusion的加持,Stable Diffusion 2.0與以前的文本到圖像模型結合使用時,可以生成分辨率為2048×2048或更高的圖像。
depth2img深度圖像擴散模型
團隊采用了一種新的深度引導(depth-guided)穩定擴散模型——depth2img。
它擴展了1.0之前的圖像到圖像功能,為創意應用提供了全新的可能性。
通過使用現有模型,Depth2img能夠推斷輸入圖像的深度,然后使用文本和深度信息生成新圖像。
左邊的輸入圖像可以產生幾個新圖像(右邊)。這種新模型可用于保持結構的圖像到圖像和形狀條件圖像合成(structure-preserving image-to-image and shape-conditional image synthesis)
Depth-to-Image
Depth-to-Image 可以提供各種新的創意應用程序,轉換后的圖像看起來與原始圖像截然不同,但仍保持了圖像的連貫性和深度。
更新文本引導修復擴散模型
此外,這次更新還引入了一個新的文本引導(text-guided)修復模型,在新的Stable Diffusion 2.0文本到圖像的基礎上進行了調整,這樣,用戶就可以非常智能、快速地替換圖像的部分內容。
更新后的修復模型在 Stable Diffusion 2.0 文本到圖像模型上進行了微調
過濾掉一些NSFW(不可描述)的內容
經過LAION的NSFW過濾器,「成人內容」都會被砍掉。
總結一下,Stable Diffusion 2 的更新如下——
-
新的SD模型提供了768×768的分辨率。 -
U-Net的參數數量與1.5版相同,但它是從頭開始訓練的,并使用OpenCLIP-ViT/H作為其文本編碼器。一個所謂的v預測模型是SD 2.0-v。 -
上述模型是由SD 2.0-base調整而來,它也是可用的,并作為典型的噪聲預測模型在512×512圖像上進行訓練。 -
增加了一個具有x4比例的潛在文本引導的擴散模型。 -
完善的SD 2.0基礎的深度引導的穩定擴散模型。該模型可用于結構保留的img2img和形狀條件合成,并以MiDaS推導的單眼深度估計為條件。 -
在SD2.0的基礎上建立了一個改進的文字引導的繪畫模型。
第一家AI繪畫「獨角獸」
網友:體驗下降,差評!
不過在國外社交媒體上,不少網友卻對Stable Diffusion的本次更新給出了「差評」,理由自然是「模型生成NSFW內容和圖片的能力被削弱了」。
是的,這次模型的關鍵組件功能被改進,使得Stable Diffusion更難生成某些引起爭議和批評的圖像了,比如廣受歡迎的裸體和色情內容、名人的逼真照片以及模仿特定藝術家作品的圖像。
「他們削弱了模型,」一位用戶在Stable Diffusion的reddit上評論道,還獲得了208次點贊,完全能代表廣大網友的心聲。
另一位用戶則表示:「他們切除并『閹割』了模特。沒有藝術,沒有人體的自然美,沒有畫家和攝影師最好的作品中描繪的生死戲劇,這比丑陋本身還要糟糕。」
NSFW的全稱是「Not Suitable For Work」,簡單講就是一些不適合上班時間瀏覽的東東。
與OpenAI的DALL-E等「競爭對手」不同,Stable Diffusion是一款完全開源的軟件。這允許社區的小伙伴一同開發、改進這款產品,并讓開發人員免費將其集成到他們的產品中。
Stable Diffusion「背后的男人」Emad Mostaque曾將它比作「披薩基地」,任何人都可以添加他們選擇的成分(訓練數據)。
Stability AI首席執行官Emad Mostaque
「一個好的模型應該可以供所有人使用,如果你想添加東西,那就加。」他在Discord上表示。
這意味著Stable Diffusion在使用方式上的限制比較少,但也因此,它招致了大量批評。
Stable Diffusion和其他圖像生成模型在未經藝術家同意的情況下,在他們的作品上進行訓練,并重現他們作品的風格,許多藝術家大為光火。
Stable Diffusion生成特定藝術家風格圖像的能力十分強大
這種AI式復制是否合法?目前,這在法律上還是一個懸而未決的問題。
專家表示,在受版權保護的數據上訓練人工智能模型可能是合法的,但某些用例可能會在法庭上受到質疑。
可以猜測,Stability AI對模型所做的更改是為了減輕這些潛在的法律挑戰。
這次2.0版本的更新,對軟件編碼和檢索數據的方式進行更改,因此,模型復制藝術家作品的能力大大降低。
正統藝術家滿意了,創造力爆棚的「成人藝術家」們卻很憤怒。
此前,Stable Diffusion就因「澀圖生成神器」之名蜚聲海內外。
老司機們用它生成一些極具真實感和動漫風格的NSFW內容,甚至包括一些特定個人的NSFW圖像(也稱非自愿色情)和虐待兒童的圖像。
前兩天,一款專門生成高質量色情內容而量身定制的AI系統「Unstable Diffusion」應運而生。
此后,大量Reddit和4chan的網民火速用Unstable Diffusion生成了逼真的裸體圖像,被「老司機」們玩出了花。
在軟件官方Discord中談到2.0版本的變化時,Mostaque也承認這正是Stable Diffusion從訓練數據中刪除裸體和色情圖片的初心。
「在開放模式中不能有兒童和NSFW,」Mostaque說,「因為這兩種圖像可以結合起來制作兒童性虐待素材。」
「在兒童和NSFW中,我們只能選擇一個。」
不過在Stable Diffusion的reddit上,一位用戶認為「違背了開源社區的精神哲學」,因為刪除NSFW內容設立了「審查制度」。
「選擇是否制作NSFW內容的權力,應該掌握在用戶手中,而不是由審查模式來評判。」
但已經有聰明的網友很快就想通了,安慰了他——
Stable Diffusion是開源的,這意味著「這類」訓練數據可以很容易地添回第三方版本,而且新軟件不會影響早期版本。
https://stability.ai/blog/stable-diffusion-v2-release
https://twitter.com/StabilityAI/status/1595590319566819328?ref_src=twsrc%5Etfw
https://www.reddit.com/r/StableDiffusion/comments/z3ferx/comment/ixlmkkj/?utm_source=share&utm_medium=web2x&context=3
https://theverge.vip/2022/11/24/23476622/ai-image-generator-stable-diffusion-version-2-nsfw-artists-data-changes
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經授權發布。