文本转歌曲：融合人声和伴奏的可控音乐生成

Apr, 2024

文本转歌曲：融合人声和伴奏的可控音乐生成

Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment

Hong Zhiqing, Huang Rongjie, Cheng Xize, Wang Yongqi, Li Ruiqi...

TL;DR本研究提出了一个称为文本到歌曲合成的新任务，结合了歌声和伴奏生成。我们开发了一种名为 Melodist 的两阶段文本到歌曲方法，它包括了歌声合成和声乐到伴奏合成。Melodist 利用三塔对比预训练来学习更有效的文本表示，用于可控的声乐到伴奏合成。我们构建了一个从音乐网站挖掘的中文歌曲数据集，以解决数据稀缺问题。我们数据集的评估结果表明，Melodist 能够合成具有可比质量和风格一致性的歌曲。音频样本可以在此 https 网址中找到。

Abstract

A song is a combination of singing voice and accompaniment. However, existing works focus on singing voice synthesis and music generation independently. Little attention was paid to explore →

song synthesis text-to-song synthesis singing voice synthesis music generation melodist

发现论文，激发创造

SingSong: 从歌唱中生成音乐伴奏

SingSong 是一种使用声音输入生成背景音乐的系统，通过应用最新的音源分离和音频生成算法，实现无条件音频生成，与强检索基线相比，生成的配乐受到听众的青睐。

Jan, 2023

无监督的旋律引导歌词生成

本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型，能够在没有旋律 - 歌词对齐数据的情况下，通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。

May, 2023

无监督旋律 - 歌词生成

本研究提出一种层次化歌词生成框架，通过将已知旋律编码为解码约束并获得歌曲大纲和完整歌词的生成，实现未经过任何对齐的歌曲和歌词数据即可生成高质量歌词，并通过歌曲大纲实现内容控制。实验结果表明，本模型相对于 SongMASS 等强基线模型，基于人类评分获得了 24% 的整体质量改善。

May, 2023

探索文本生成音乐中的个性化方法

调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响，并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估，使用基于嵌入和基于音乐的量化评估指标，以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致，并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。

Sep, 2023

从歌词中生成神经元旋律

本文提出了一种基于序列到序列框架，利用神经编码器和分层解码器，结合自然语言和旋律创作音乐曲调及准确标定的模型，并在 18,451 首流行歌曲中的歌词 - 旋律匹配对上进行了实验，论文通过人工评估证明了模型生成的旋律比基线模型更优秀。

Sep, 2018

促进的歌唱声音合成：通过自然语言提示实现可控

提供了一种新的歌声合成方法 Prompt-Singer，使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量，并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性，同时，对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索，旨在促进进一步的研究，实验证明该模型具有良好的控制能力和音频质量。

Mar, 2024

SongMASS：基于预训练和对齐约束的自动作曲

本文提出了 SongMASS 方法来解决自动生成歌曲时歌词到旋律生成和旋律到歌词生成所面临的限制问题，使用基于掩蔽序列到序列预训练和基于注意力的对齐建模，表现出明显优于基线方法的歌词和旋律生成质量。

Dec, 2020

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

对抗训练的端到端朝鲜语歌声合成系统

本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Aug, 2019

音乐到文本的共感现象：从音乐录音生成描述性文本

考虑到现有音乐数据集缺乏语义描述，本文收集了包括 1,955 个经典音乐录音和文本描述的新数据集，提出了一种计算模型来生成描述音乐内容的句子，并设计了一种组拓扑保持损失来解决经典音乐的非判别性问题。在我们的数据集上，与其他竞争方法相比，该模型在定性和定量实验中均表现出明显的优越性。

Oct, 2022