Aug, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

TL;DR通过构建一种文本到音乐模型,并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐,解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略,即拍子同步音频混合和拍子同步潜在混合,实现对训练数据的重组,从而生成多样化且保持风格一致的音乐。最终,通过基于对比语音 - 音频预训练模型的评估指标,进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。