Google:我能把文本變成音樂,但這個 AI 模型不能對外發(fā)布!
整理:屠敏
出品:CSDN
人工智能的春天已至,未來屬于 AIGC。
繼業(yè)界出現(xiàn) ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、圖像、文本生成聲音等模型之后,Google 最新帶來了一種新的人工智能系統(tǒng),讓 AI 發(fā)力音樂圈,該系統(tǒng)可以在給定文本描述的情況下自動生成任何類型的音樂,為此,Google 還取了一個言簡意賅的名字——MusicLM。
不過,值得注意的是,因?yàn)閾?dān)心該系統(tǒng)存在一些潛在風(fēng)險,Google 當(dāng)前雖然已經(jīng)研發(fā)了該系統(tǒng),但暫時還沒有對外公開發(fā)布它的計(jì)劃。
MusicLM 的神奇之處
只聞其聲不見其人,也為 MusicLM 帶來了一些神秘感。不過,近日,Google 發(fā)布了一篇《MusicLM: Generating Music From Text》學(xué)術(shù)論文,揭開了 MusicLM 的面紗。
據(jù)論文介紹,MusicLM 是一個從文本描述中生成高保真音樂的模型,它將有條件的音樂生成過程描述為一個層次化的序列到序列的建模任務(wù),其生成的音樂頻率為 24kHz,在幾分鐘內(nèi)保持一致。
在業(yè)界,MusicLM 并不是第一個 AI 音樂生成器,也正如外媒 TechCrunch 指出的那樣,此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等項(xiàng)目都已經(jīng)實(shí)現(xiàn)了音樂生成功能,那么,MusicLM 到底特別在哪里?
其實(shí),MusicLM 的與眾不同主要體現(xiàn)在以下幾點(diǎn):
一、MusicLM 的訓(xùn)練數(shù)據(jù)無可比擬
上述提到的幾種模型往往由于技術(shù)限制和有限的訓(xùn)練數(shù)據(jù),無法制作出作曲特別復(fù)雜或高保真度的歌曲。
相比之下,MusicLM 是在 280,000 小時的音樂數(shù)據(jù)集上進(jìn)行了訓(xùn)練而成,由此可以幫助模型本身創(chuàng)造出令人稱奇的多樣性、深度的音樂。
二、MusicLM 可以直接根據(jù)文本提示生成長達(dá)幾分鐘的音樂片段
只要提供一段描述,MusicLM 模型可以文本自動生成符合場景的音樂,譬如提供的描述如下:
雷鬼舞曲和電子舞曲的融合,具有太空般的、另一個世界的聲音。誘發(fā)在太空中迷失的體驗(yàn),音樂將被設(shè)計(jì)為喚起一種奇跡和敬畏感,同時又是可舞蹈的。
關(guān)于 MusicLM 的更多詳情可見:
https://google-research.github.io/seanet/musiclm/examples/
參考鏈接:
https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/
本文來自微信公眾號“大數(shù)據(jù)文摘”(ID:BigDataDigest),36氪經(jīng)授權(quán)發(fā)布。
