Google：我能把文本變成音樂，但這個 AI 模型不能對外發(fā)布！

AI科技大本營

+ 關(guān)注

2023-01-30 12:18

635次閱讀

Google：我能把文本變成音樂，但這個 AI 模型不能對外發(fā)布！

整理：屠敏

出品：CSDN

人工智能的春天已至，未來屬于 AIGC。

繼業(yè)界出現(xiàn) ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、圖像、文本生成聲音等模型之后，Google 最新帶來了一種新的人工智能系統(tǒng)，讓 AI 發(fā)力音樂圈，該系統(tǒng)可以在給定文本描述的情況下自動生成任何類型的音樂，為此，Google 還取了一個言簡意賅的名字——MusicLM。

不過，值得注意的是，因?yàn)閾?dān)心該系統(tǒng)存在一些潛在風(fēng)險，Google 當(dāng)前雖然已經(jīng)研發(fā)了該系統(tǒng)，但暫時還沒有對外公開發(fā)布它的計(jì)劃。

MusicLM 的神奇之處

只聞其聲不見其人，也為 MusicLM 帶來了一些神秘感。不過，近日，Google 發(fā)布了一篇《MusicLM: Generating Music From Text》學(xué)術(shù)論文，揭開了 MusicLM 的面紗。

Google：我能把文本變成音樂，但這個 AI 模型不能對外發(fā)布！

據(jù)論文介紹，MusicLM 是一個從文本描述中生成高保真音樂的模型，它將有條件的音樂生成過程描述為一個層次化的序列到序列的建模任務(wù)，其生成的音樂頻率為 24kHz，在幾分鐘內(nèi)保持一致。

Google：我能把文本變成音樂，但這個 AI 模型不能對外發(fā)布！

層次化的序列到序列的建模任務(wù)

在業(yè)界，MusicLM 并不是第一個 AI 音樂生成器，也正如外媒 TechCrunch 指出的那樣，此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等項(xiàng)目都已經(jīng)實(shí)現(xiàn)了音樂生成功能，那么，MusicLM 到底特別在哪里？

其實(shí)，MusicLM 的與眾不同主要體現(xiàn)在以下幾點(diǎn)：

一、MusicLM 的訓(xùn)練數(shù)據(jù)無可比擬

上述提到的幾種模型往往由于技術(shù)限制和有限的訓(xùn)練數(shù)據(jù)，無法制作出作曲特別復(fù)雜或高保真度的歌曲。

相比之下，MusicLM 是在 280，000 小時的音樂數(shù)據(jù)集上進(jìn)行了訓(xùn)練而成，由此可以幫助模型本身創(chuàng)造出令人稱奇的多樣性、深度的音樂。

二、MusicLM 可以直接根據(jù)文本提示生成長達(dá)幾分鐘的音樂片段

只要提供一段描述，MusicLM 模型可以文本自動生成符合場景的音樂，譬如提供的描述如下：

雷鬼舞曲和電子舞曲的融合，具有太空般的、另一個世界的聲音。誘發(fā)在太空中迷失的體驗(yàn)，音樂將被設(shè)計(jì)為喚起一種奇跡和敬畏感，同時又是可舞蹈的。

三、MusicLM 模型還可以基于已有的旋律轉(zhuǎn)換為其他樂器，甚至模擬人聲

除了以上，Google 研究人員表明，MusicLM 還可以建立在現(xiàn)有的旋律之上，即無論是哼唱、演唱、吹口哨還是在樂器上，MusicLM 都可以繼續(xù)創(chuàng)建音樂。

與此同時，根據(jù)官方提供的示例顯示，MusicLM 模型能夠按順序編寫多個描述（例如“冥想時間”，“醒來時間”，“跑步時間”，“100% 給予時間”），并創(chuàng)建一種以“故事”或長達(dá)幾分鐘的敘事為背景的旋律，這種非常適合電影配樂。

譬如，想要一個以下敘事內(nèi)容的背景音樂：

電子游戲中播放的歌曲（0：00-0：15）

在河邊播放的冥想歌曲（0：15-0：30）

火（0：30-0：45）

煙花（0：45-0：60）

MusicLM 在理解了文本內(nèi)容之后，生成的旋律如下所示：

MusicLM 也能通過圖片和文本描述的組合進(jìn)行指導(dǎo)，或生成由特定類型的樂器“播放”的音頻。甚至可以設(shè)置 AI “音樂家”的經(jīng)驗(yàn)水平，系統(tǒng)可以創(chuàng)作受地點(diǎn)、時代或要求啟發(fā)的音樂（例如鍛煉的勵志音樂）等等。

基于以上，很多網(wǎng)友在了解論文以及通過示例觀摩之后，給予了高度評價：

哇，這對我來說比 ChatGPT 還有吸引力。

我會說，谷歌幾乎解決了音樂生成問題。

Google 研究員表示，「實(shí)驗(yàn)表明，MusicLM 在音頻質(zhì)量和對文本描述的遵守方面都優(yōu)于以前的系統(tǒng)。」

MusicLM 的不足

不容忽視的是，MusicLM 還有一個強(qiáng)大之處就是可以模擬人聲。

不過，MusicLM 當(dāng)前還并不是一個成熟的模型，就以模擬人聲為例，雖然它可以正確處理聲音的音調(diào)，但是質(zhì)感還存在一個問題。此外，很多自動生成的“歌詞”有些含糊不清，也許有點(diǎn)像某人在哼歌，也許好像在聽英文歌，但實(shí)際上或許并非如此，聽眾甚至?xí)欢葢岩勺约旱亩渎牭降木烤故鞘裁础?/span>

Google 的擔(dān)憂

整體而言，這些由 AI 生成的歌曲聽起來像是人類藝術(shù)家可能創(chuàng)作出來的，普通聽眾往往難以分辨到底是 AI 創(chuàng)作還是人類創(chuàng)作。

或也正是基于這一方面的考慮，Google 在開發(fā)這款模型之際也猶豫了，在論文中，其表示，“我們目前沒有發(fā)布該模型的計(jì)劃”。

具體原因和此前面對 ChatGPT 強(qiáng)大的競爭壓力時，Google 謹(jǐn)慎的態(tài)度一樣，其擔(dān)心像 MusicLM 這樣的模型將會帶來許多道德挑戰(zhàn)，包括將訓(xùn)練數(shù)據(jù)中的受版權(quán)保護(hù)的材料合并到生成的歌曲中。

在一項(xiàng)實(shí)驗(yàn)中，Google 研究人員發(fā)現(xiàn)系統(tǒng)生成的音樂中約有 1% 是直接從其訓(xùn)練的歌曲中復(fù)制的，這個閾值顯然足以阻止他們以當(dāng)前狀態(tài)發(fā)布 MusicLM 這款模型。

“我們承認(rèn)與用例相關(guān)的創(chuàng)意內(nèi)容可能有會被盜用的風(fēng)險，”該論文的共同作者寫道，“我們強(qiáng)烈強(qiáng)調(diào)，未來需要開展更多工作，以應(yīng)對與音樂創(chuàng)作相關(guān)的這些風(fēng)險。

不過，Google 也表示，它正在公開發(fā)布一個包含 5500 個音樂文本組成的數(shù)據(jù)集 MusicCaps，其中有人類專家顧問提供豐富的文本描述，有助于訓(xùn)練和評估其他音樂 AI。也許在不久的將來，待 Google 摸出合適的道路，我們可以真正地一見 MusicLM 的風(fēng)采。

關(guān)于 MusicLM 的更多詳情可見：

https://google-research.github.io/seanet/musiclm/examples/

參考鏈接：

https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/