旋律是音乐生成的关键
本文介绍了MusicFrameworks,这是一种基于深度学习的分层音乐结构表示方法;并提出了一种多步骤的生成过程,根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明,其中一半的旋律比起POP909数据集中由人类作曲家创作的音乐更好或同样好。
Sep, 2021
该论文介绍了一种名为MeloForm的系统,该系统使用专家系统和神经网络生成带有音乐形式的旋律,并设计了一种基于Transformer的精细化模型来改善旋律,该系统可以在没有标注的音乐形式数据的情况下精确地控制音乐形式并生成丰富的旋律。
Aug, 2022
利用Jukebox描述音频数据,并结合新数据集进行模型训练,在旋律转录方面取得了令人瞩目的进展,从而实现了直接从音频转录可阅读的乐谱的Sheet Sage系统。
Dec, 2022
介绍了 MeLoDy,一种基于 LM 引导扩散模型,可以高效地生成音乐音频,并同时减少音乐 LM 中 95.7% 或 99.6% 的前向处理,实现了可持续且具有良好音质和文本相关性的音乐生成。
May, 2023
本文介绍了MusicGen这个单一语言模型,能够生成高质量的音乐样本,实现对文本描述或旋律特征的有条件创作,并经过广泛的实证评估,表明其在标准的文本到音乐基准上优于其他模型。
Jun, 2023
JEN-1是一个通用高保真度的文本到音乐生成模型,通过整合自回归和非自回归训练技术,并且通过上下文学习实现文本引导的音乐生成、音乐修复和延续等多种生成任务,相对于先前的方法,在文本与音乐对齐、音乐质量和计算效率方面展现出优越的性能。
Aug, 2023
该研究提出了MelodyGLM,一个多任务预训练框架,用于生成带有长期结构的旋律。研究使用melodic n-gram和长跨度抽样策略来创建本地和全局填充任务,以建模旋律中的本地和全局结构。研究还构建了一个包含超过40万旋律片段的大规模符号旋律数据集,用于大规模预训练和领域特定的n-gram词典构建。主观和客观评估结果表明,MelodyGLM超过了标准和之前的预训练方法,在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是,MelodyGLM在旋律填充任务上几乎与人类创作的旋律的质量相媲美。
Sep, 2023
通过预训练的MusicGen模型进行微调,我们引入Instruct-MusicGen,它通过添加文本融合模块和音频融合模块,可以同时处理指令文本和音频输入,从而实现高效的文本转音乐编辑,提高了音乐语言模型在动态音乐制作环境中的应用广度。
May, 2024
MelodyLM是一种TTSong模型,利用文本和声音提示生成高质量的歌曲样本,用户只需要输入歌词和一个参考声音即可合成歌曲样本,同时支持文本提示和直接输入MIDI来实现完全的控制灵活性。
Jul, 2024
本文提出了旋律引导音乐生成模型(MMGen),解决了音乐生成中旋律与音频的对齐问题。该模型通过多模态对齐模块和扩散模块,实现了根据旋律生成符合给定音频风格以及文本描述内容的音乐。研究结果表明,该模型在实验指标和实际表现上均优于现有方法,且提供的多模态数据集MusicSet将公开可用。
Sep, 2024