智东西8月3日消息,今天,Meta发布了一款开源AI工具AudioCraft,该工具可以帮助用户根据文本提示创作音乐和音频。
Meta称,这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大模型,不仅可以生成各种模拟音频效果,还能减少音损。用户使用该AI工具,可在输入文本内容后,生成高质量、逼真的音频和音乐。
目前来看,由于生成任何类型高保真度的音频都需要对不同尺度的复杂信号和模型进行建模,音乐在某种程度被看作是最具挑战性的音频类型。Meta通过自我监督音频表示学习的方式(self-supervised audio representation learning)以及许多分层或级联模型(hierarchical or cascaded models)来生成音乐,这样将原始音频输入到系统中,就可捕获信号中的远程结构(long-range structures),同时生成音频。
与此前的AI工具相比,AudioCraft背后的模型经过授权音乐库的训练,避免了版权风险;其次,由于接受公共音效训练,它可以生成包括狗叫、脚步声在内的各种模拟音效;最后它简化了音频生成模型的整体设计,同时开源的形式也有助于其他人开发自己音乐模型。但目前来看,AudioCraft仍然代替不了人类生成复杂且优秀的音乐作品。
01.
经2万小时授权音乐训练,
压缩文件大小比MP3格式小10倍
从目前Meta的介绍来看,Audiocraft背后使用三种模型中,MusicGen接受过Meta拥有的和特别授权的音乐库进行训练,可以从文本提示生成音乐。
今年6月初,这个名为MusicGen的开源AI模型由Meta推出。据悉,这是一种深度学习语言模型。它接受了2万小时的音乐训练,其中包括大约40万个录音、文本描述及元数据等。
▲AI模型MusicGen背后的论文基础,来源:Meta AI博客
此外,另一款模型AudioGen接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声。从Meta的介绍来看,AudioGen是一个来自Meta和耶路撒冷希伯来大学的研究团队的AI模型,可以通过输入文本来生成音频,亦可以扩展现有音频。AudioGen可以区分不同的声音对象,并在声学上将它们分开。
▲Meta展示AudioGen文本转音频效果,来源:Meta AI博客
最后要说的就是EnCodec编解码器,此前,由于需要对原始音频信号中极长的序列进行建模,原始信号生成音频对研究人员来说存在巨大挑战。以一个几分钟的音乐曲目为例,它在通过44.1Hz的标准质量采样后,会形成数百万个时间步(timesteps)。
相比之下,在Llama和Llama 2等大模型的加持下,用户输入的文本可被处理为子词(sub-words),这样每个样本仅会产生几千个时间步。
因此,Meta团队使用基于深度学习的音频编解码器(neural audio codec)EnCodec,该编码器由AI驱动,可以从原始信号中学习离散音频标记(autoregressive language models),从而为研究人员提供了音乐样本的新固定的“词汇”(vocabulary)。研究人员可以在这些离散的音频标记上训练自回归语言模型,最后,研究人员可使用EnCodec的解码器将标记转回音频空间时生成的新标记及新音乐。