使用无旋律监督预训练提升单音人声合成的音域

Sep, 2023

使用无旋律监督预训练提升单音人声合成的音域

Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training

Shaohuan Zhou, Xu Li, Zhiyong Wu, Ying Shan, Helen Meng

TL;DR基于先前的研究，在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法，提高了单个说话人的声域，同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集，并改善了合成歌声的音质和节奏自然度。

Abstract

The single-speaker singing voice synthesis (SVS) usually underperforms at pitch values that are out of the singer's vocal range or associated with limited training samples. Based on our previous work, this work proposes a melody-unsupervised multi-speaker pre-training method conducted

single-speaker singing voice synthesis vocal range enhancement multi-singer pre-training sound quality improvement rhythm naturalness

发现论文，激发创造

WeSinger: 使用辅助损失函数的数据扩增歌声合成

本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger，它采用了 24 kHz LPCNet 和多歌手预训练，通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。

Mar, 2022

促进的歌唱声音合成：通过自然语言提示实现可控

提供了一种新的歌声合成方法 Prompt-Singer，使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量，并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性，同时，对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索，旨在促进进一步的研究，实验证明该模型具有良好的控制能力和音频质量。

Mar, 2024

提升歌声合成表达力的方向：基于 BERT 派生语义信息

该研究介绍了一种端到端的高质量歌声合成（SVS）系统，其使用来自 Transformers（BERT）的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。

Aug, 2023

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

MakeSinger: 一种用于数据高效的半监督训练方法的歌声合成，通过无分类器扩散引导

通过无分类器扩散引导的 MakeSinger 半监督训练方法，提高合成的歌声质量，并展示即使在无歌声数据的情况下，通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。

Jun, 2024

HiFiSinger: 面向高保真神经歌声合成

本研究提出了一种名为 HiFiSinger 的 SVS 系统，通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型，使用小波变换处理声波时频信息，采用多级对抗训练，在高采样率情况下合成高保真度的歌唱声音。

Sep, 2020

DiffSinger：一种浅层扩散机制的歌声合成方法

本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

May, 2021

学习歌曲之美：神经唱声美化器

本研究通过引入条件变分自动编码器作为神经网络，提出了一种名为 NSVB 的算法以解决唱歌者专业音色的问题，主要包括时间伸缩技术和基于隐变量的映射算法，该算法能够有效地进行音高校正并且在客观和主观尺度上均获得了更好的实验效果。

Feb, 2022

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023