全文本控制旋律陪伴式歌声合成
SingSong是一种使用声音输入生成背景音乐的系统,通过应用最新的音源分离和音频生成算法,实现无条件音频生成,与强检索基线相比,生成的配乐受到听众的青睐。
Jan, 2023
本文提出一种新的方法LOAF-M2L来生成旋律与歌词之间兼容的歌词,并引入音乐学研究中的信息来帮助模型学习旋律的细粒度格式要求,在主观评估中相对于现有最先进的旋律到歌词生成模型显示出63.92%和74.18%的相对改进。
Jul, 2023
我们利用基于字符级的语言模型来从符号化旋律生成音节级歌词,通过对一个字符级预训练模型进行微调,将语言知识整合到音节级Transformer生成器的束搜索中。通过基于ChatGPT的评估,我们展示了生成歌词时的增强一致性和正确性。
Oct, 2023
SongComposer是一种创新的基于LLM的歌曲作曲技术,通过利用LLM的能力来理解和生成具有象征性歌曲表示的旋律和歌词,通过符号化歌曲表示的方式,使LLM能够像人类一样明确地作曲,通过SongCompose-PT预训练数据集的收集和充分的预训练,SongComposer在歌词到旋律生成、旋律到歌词生成、歌曲延续和文本到歌曲创作等领域展现出优越的性能。
Feb, 2024
提供了一种新的歌声合成方法Prompt-Singer,使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量,并使用基于解码器的transformer模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性,同时,对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索,旨在促进进一步的研究,实验证明该模型具有良好的控制能力和音频质量。
Mar, 2024
本研究提出了一个称为文本到歌曲合成的新任务,结合了歌声和伴奏生成。我们开发了一种名为Melodist的两阶段文本到歌曲方法,它包括了歌声合成和声乐到伴奏合成。Melodist利用三塔对比预训练来学习更有效的文本表示,用于可控的声乐到伴奏合成。我们构建了一个从音乐网站挖掘的中文歌曲数据集,以解决数据稀缺问题。我们数据集的评估结果表明,Melodist能够合成具有可比质量和风格一致性的歌曲。音频样本可以在此https网址中找到。
Apr, 2024
本研究解决了现有歌曲生成方法在音乐表现控制方面的不足,通过引入和弦这一重要音乐组成概念,增强了歌曲生成网络的效果。提出的和弦条件歌曲生成器(CSG)结合了动态权重序列的跨注意力机制,使生成的歌曲在音乐表现和控制精度上显著优于其他方法。
Sep, 2024
本文提出了旋律引导音乐生成模型(MMGen),解决了音乐生成中旋律与音频的对齐问题。该模型通过多模态对齐模块和扩散模块,实现了根据旋律生成符合给定音频风格以及文本描述内容的音乐。研究结果表明,该模型在实验指标和实际表现上均优于现有方法,且提供的多模态数据集MusicSet将公开可用。
Sep, 2024
本研究针对现有音乐生成方法缺乏旋律引导的问题,提出了一种新的旋律引导音乐生成模型(MMGen)。该模型通过多模态对齐模块有效对齐旋律与音频波形及描述,研究结果表明,该方法在生成与提供音频风格相匹配且符合文本描述的音乐方面具有显著优势,且构建的MusicSet数据集将促进该领域的进一步研究。
Sep, 2024