Google:我能把文本變成音樂,但這個 AI 模型不能對外發布!
整理:屠敏
出品:CSDN
人工智能的春天已至,未來屬于 AIGC。
繼業界出現 ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、圖像、文本生成聲音等模型之后,Google 最新帶來了一種新的人工智能系統,讓 AI 發力音樂圈,該系統可以在給定文本描述的情況下自動生成任何類型的音樂,為此,Google 還取了一個言簡意賅的名字——MusicLM。
不過,值得注意的是,因為擔心該系統存在一些潛在風險,Google 當前雖然已經研發了該系統,但暫時還沒有對外公開發布它的計劃。
MusicLM 的神奇之處
只聞其聲不見其人,也為 MusicLM 帶來了一些神秘感。不過,近日,Google 發布了一篇《MusicLM: Generating Music From Text》學術論文,揭開了 MusicLM 的面紗。
據論文介紹,MusicLM 是一個從文本描述中生成高保真音樂的模型,它將有條件的音樂生成過程描述為一個層次化的序列到序列的建模任務,其生成的音樂頻率為 24kHz,在幾分鐘內保持一致。
在業界,MusicLM 并不是第一個 AI 音樂生成器,也正如外媒 TechCrunch 指出的那樣,此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等項目都已經實現了音樂生成功能,那么,MusicLM 到底特別在哪里?
其實,MusicLM 的與眾不同主要體現在以下幾點:
一、MusicLM 的訓練數據無可比擬
上述提到的幾種模型往往由于技術限制和有限的訓練數據,無法制作出作曲特別復雜或高保真度的歌曲。
相比之下,MusicLM 是在 280,000 小時的音樂數據集上進行了訓練而成,由此可以幫助模型本身創造出令人稱奇的多樣性、深度的音樂。
二、MusicLM 可以直接根據文本提示生成長達幾分鐘的音樂片段
只要提供一段描述,MusicLM 模型可以文本自動生成符合場景的音樂,譬如提供的描述如下:
雷鬼舞曲和電子舞曲的融合,具有太空般的、另一個世界的聲音。誘發在太空中迷失的體驗,音樂將被設計為喚起一種奇跡和敬畏感,同時又是可舞蹈的。
關于 MusicLM 的更多詳情可見:
https://google-research.github.io/seanet/musiclm/examples/
參考鏈接:
https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/
本文來自微信公眾號“大數據文摘”(ID:BigDataDigest),36氪經授權發布。