Apr, 2024

文本转歌曲:融合人声和伴奏的可控音乐生成

TL;DR本研究提出了一个称为文本到歌曲合成的新任务,结合了歌声和伴奏生成。我们开发了一种名为 Melodist 的两阶段文本到歌曲方法,它包括了歌声合成和声乐到伴奏合成。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的声乐到伴奏合成。我们构建了一个从音乐网站挖掘的中文歌曲数据集,以解决数据稀缺问题。我们数据集的评估结果表明,Melodist 能够合成具有可比质量和风格一致性的歌曲。音频样本可以在此 https 网址中找到。