基于和弦条件的歌曲生成的端到端方法
本文提出了一种将深度学习中的原始音频模型和符号模型相结合的音乐自动生成方法,使用LSTM网络学习音乐的旋律结构,再将符号生成作为WaveNet原始音频生成器的条件输入,从而生成出有结构且听起来逼真的音乐。
Jun, 2018
该论文提出了一种新型Transformer解码器架构,其用于不同的前馈头来模拟不同类型的tokens,以及一种扩展-压缩技巧将邻近的tokens分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.
Jan, 2021
本文介绍了MusicFrameworks,这是一种基于深度学习的分层音乐结构表示方法;并提出了一种多步骤的生成过程,根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明,其中一半的旋律比起POP909数据集中由人类作曲家创作的音乐更好或同样好。
Sep, 2021
SingSong是一种使用声音输入生成背景音乐的系统,通过应用最新的音源分离和音频生成算法,实现无条件音频生成,与强检索基线相比,生成的配乐受到听众的青睐。
Jan, 2023
本文介绍如何使用深度学习技术创造出吉他Tablature格式的音乐,实现了基于乐器和音乐风格的控制,证明在生成吉他专业音乐方面的相对效果。
Feb, 2023
本研究提出了一个称为文本到歌曲合成的新任务,结合了歌声和伴奏生成。我们开发了一种名为Melodist的两阶段文本到歌曲方法,它包括了歌声合成和声乐到伴奏合成。Melodist利用三塔对比预训练来学习更有效的文本表示,用于可控的声乐到伴奏合成。我们构建了一个从音乐网站挖掘的中文歌曲数据集,以解决数据稀缺问题。我们数据集的评估结果表明,Melodist能够合成具有可比质量和风格一致性的歌曲。音频样本可以在此https网址中找到。
Apr, 2024
本文提出了基于组成层次结构实现完整音乐作品建模的方法,通过定义一种分层语言对流行歌曲的符号化表示进行建模。通过级联扩散模型训练了分层语言模型,实验证明该模型能够生成具有可识别的全局歌词-副歌结构和协调音的完整音乐作品,且音乐质量高于基准模型。此外,还展示了该模型具有灵活的可控性,用户可以通过从可解释的分层语言中采样或调整预训练的外部表示来控制音乐的流动。
May, 2024
MelodyLM是一种TTSong模型,利用文本和声音提示生成高质量的歌曲样本,用户只需要输入歌词和一个参考声音即可合成歌曲样本,同时支持文本提示和直接输入MIDI来实现完全的控制灵活性。
Jul, 2024
本研究解决了在歌词基础上生成同时包含人声和伴奏歌曲的挑战,弥补了现有音乐生成模型在实际应用中的不足。提出的SongCreator系统采用双序列语言模型和注意力掩码策略,实现了有效的歌曲生成和编辑,实验结果表明,该模型在歌词转歌曲和歌词转人声任务中超过了之前的研究,具有广泛的应用潜力。
Sep, 2024