全文本控制旋律陪伴式歌声合成

Jul, 2024

Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

HTML

PDF

Ruiqi Li, Zhiqing Hong, Yongqi Wang, Lichao Zhang, Rongjie Huang...

TL;DRMelodyLM是一种TTSong模型，利用文本和声音提示生成高质量的歌曲样本，用户只需要输入歌词和一个参考声音即可合成歌曲样本，同时支持文本提示和直接输入MIDI来实现完全的控制灵活性。

Abstract

text-to-song (ttsong) is a music generation task that synthesizes accompanied singing voices. Current →

发现论文，激发创造

SingSong: 从歌唱中生成音乐伴奏

SingSong是一种使用声音输入生成背景音乐的系统，通过应用最新的音源分离和音频生成算法，实现无条件音频生成，与强检索基线相比，生成的配乐受到听众的青睐。

Jan, 2023

LOAF-M2L: 歌词生成器的歌词和格式化的联合学习

本文提出一种新的方法LOAF-M2L来生成旋律与歌词之间兼容的歌词，并引入音乐学研究中的信息来帮助模型学习旋律的细粒度格式要求，在主观评估中相对于现有最先进的旋律到歌词生成模型显示出63.92％和74.18％的相对改进。

Jul, 2023

通过微调语言模型实现以旋律为条件的歌词生成，并配合 ChatGPT 进行评估

我们利用基于字符级的语言模型来从符号化旋律生成音节级歌词，通过对一个字符级预训练模型进行微调，将语言知识整合到音节级Transformer生成器的束搜索中。通过基于ChatGPT的评估，我们展示了生成歌词时的增强一致性和正确性。

Oct, 2023

SongComposer: 歌曲生成中用于歌词和旋律创作的大型语言模型

SongComposer是一种创新的基于LLM的歌曲作曲技术，通过利用LLM的能力来理解和生成具有象征性歌曲表示的旋律和歌词，通过符号化歌曲表示的方式，使LLM能够像人类一样明确地作曲，通过SongCompose-PT预训练数据集的收集和充分的预训练，SongComposer在歌词到旋律生成、旋律到歌词生成、歌曲延续和文本到歌曲创作等领域展现出优越的性能。

Feb, 2024

促进的歌唱声音合成: 通过自然语言提示实现可控

提供了一种新的歌声合成方法Prompt-Singer，使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量，并使用基于解码器的transformer模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性，同时，对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索，旨在促进进一步的研究，实验证明该模型具有良好的控制能力和音频质量。

Mar, 2024

文本转歌曲：融合人声和伴奏的可控音乐生成

本研究提出了一个称为文本到歌曲合成的新任务，结合了歌声和伴奏生成。我们开发了一种名为Melodist的两阶段文本到歌曲方法，它包括了歌声合成和声乐到伴奏合成。Melodist利用三塔对比预训练来学习更有效的文本表示，用于可控的声乐到伴奏合成。我们构建了一个从音乐网站挖掘的中文歌曲数据集，以解决数据稀缺问题。我们数据集的评估结果表明，Melodist能够合成具有可比质量和风格一致性的歌曲。音频样本可以在此https网址中找到。

Apr, 2024

快速非自回归声乐伴奏生成

开发了一种快速的歌唱伴奏生成方法，通过扩散和Mel频谱建模，大大简化了基于标记的歌曲生成框架，并加速了生成速度。

May, 2024

基于和弦条件的歌曲生成的端到端方法

本研究解决了现有歌曲生成方法在音乐表现控制方面的不足，通过引入和弦这一重要音乐组成概念，增强了歌曲生成网络的效果。提出的和弦条件歌曲生成器（CSG）结合了动态权重序列的跨注意力机制，使生成的歌曲在音乐表现和控制精度上显著优于其他方法。

Sep, 2024

旋律是音乐生成的全部

本文提出了旋律引导音乐生成模型（MMGen），解决了音乐生成中旋律与音频的对齐问题。该模型通过多模态对齐模块和扩散模块，实现了根据旋律生成符合给定音频风格以及文本描述内容的音乐。研究结果表明，该模型在实验指标和实际表现上均优于现有方法，且提供的多模态数据集MusicSet将公开可用。

Sep, 2024

旋律是音乐生成的关键

本研究针对现有音乐生成方法缺乏旋律引导的问题，提出了一种新的旋律引导音乐生成模型（MMGen）。该模型通过多模态对齐模块有效对齐旋律与音频波形及描述，研究结果表明，该方法在生成与提供音频风格相匹配且符合文本描述的音乐方面具有显著优势，且构建的MusicSet数据集将促进该领域的进一步研究。

Sep, 2024