促进的歌唱声音合成：通过自然语言提示实现可控

ACLMar, 2024

促进的歌唱声音合成：通过自然语言提示实现可控

Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt

Yongqi Wang, Ruofan Hu, Rongjie Huang, Zhiqing Hong, Ruiqi Li...

TL;DR提供了一种新的歌声合成方法 Prompt-Singer，使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量，并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性，同时，对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索，旨在促进进一步的研究，实验证明该模型具有良好的控制能力和音频质量。

Abstract

Recent singing-voice-synthesis (SVS) methods have achieved remarkable audio quality and naturalness, yet they lack the capability to control the style attributes of the synthesized singing explicitly. We propose prompt-

singing-voice-synthesis prompt-singer attribute controlling transformer data scarcity

发现论文，激发创造

WeSinger: 使用辅助损失函数的数据扩增歌声合成

本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger，它采用了 24 kHz LPCNet 和多歌手预训练，通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。

Mar, 2022

使用无旋律监督预训练提升单音人声合成的音域

基于先前的研究，在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法，提高了单个说话人的声域，同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集，并改善了合成歌声的音质和节奏自然度。

Sep, 2023

提升歌声合成表达力的方向：基于 BERT 派生语义信息

该研究介绍了一种端到端的高质量歌声合成（SVS）系统，其使用来自 Transformers（BERT）的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。

Aug, 2023

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

MakeSinger: 一种用于数据高效的半监督训练方法的歌声合成，通过无分类器扩散引导

通过无分类器扩散引导的 MakeSinger 半监督训练方法，提高合成的歌声质量，并展示即使在无歌声数据的情况下，通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。

Jun, 2024

StyleSinger: 跨领域歌声合成的风格转换

StyleSinger 是首个用于零样本风格转移的领域外参考唱声样本的歌声合成模型，通过采用剩余风格适应器和不确定性建模层标准化的关键方法，它在音频质量和与参考唱声样本的相似性方面优于基线模型。

Dec, 2023

PromptTTS++：使用自然语言描述控制基于提示的文本到语音中的说话人身份

这篇论文提出了 PromptTTS++，一个基于提示的文本到语音合成系统，通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份，引入了说话者提示的概念，描述了与说话风格大致独立的语音特征，可以有效地学习从自然语言描述到多样化说话者的声学特征的映射。研究结果表明，与没有说话者提示的方法相比，该方法可以更好地控制说话者的特征。

Sep, 2023

学习歌曲之美：神经唱声美化器

本研究通过引入条件变分自动编码器作为神经网络，提出了一种名为 NSVB 的算法以解决唱歌者专业音色的问题，主要包括时间伸缩技术和基于隐变量的映射算法，该算法能够有效地进行音高校正并且在客观和主观尺度上均获得了更好的实验效果。

Feb, 2022

N-Singer：一种非自回归式韩语歌声合成系统，用于发音增强

本文提出一种名为 N-Singer 的韩语歌声合成系统，通过用 Transformer-based mel-generator、卷积网络 - based postnet 和声音感知判别器来分别建模语言和音高信息以实现更准确的韩语发音和改善谱图。

Jun, 2021