DiffSinger：一种浅层扩散机制的歌声合成方法

AAAIMay, 2021

DiffSinger：一种浅层扩散机制的歌声合成方法

DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism

Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, Zhou Zhao

TL;DR本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

Abstract

singing voice synthesis (SVS) systems are built to synthesize high-quality and expressive singing voice, in which the acoustic model generates the acoustic features (e.g., mel-spectrogram) given a music score. Pr

singing voice synthesis diffusion probabilistic model acoustic model variational bound boundary prediction

发现论文，激发创造

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

DiffSVC：一种用于歌声转换的扩散概率模型

本文提出 DiffSVC，一种基于去噪扩散概率模型的 SVC 系统，在该系统中，使用语音后验谱图（PPG）等特征进行内容建模，并辅助使用基频和响度特征来辅助去噪。实验表明，DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。

May, 2021

通过神经音频编解码器和潜在扩散模型实现高质量歌声合成

HiddenSinger 是一个高质量的歌唱声音合成系统，使用神经音频编解码器和潜在扩散模型，解决了模型复杂性和可控性的问题，并在无标签歌声数据集上训练，产生了高品质的歌声合成结果。

Jun, 2023

MakeSinger: 一种用于数据高效的半监督训练方法的歌声合成，通过无分类器扩散引导

通过无分类器扩散引导的 MakeSinger 半监督训练方法，提高合成的歌声质量，并展示即使在无歌声数据的情况下，通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。

Jun, 2024

WeSinger: 使用辅助损失函数的数据扩增歌声合成

本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger，它采用了 24 kHz LPCNet 和多歌手预训练，通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。

Mar, 2022

对抗训练的多歌手序列到序列歌唱合成器

本文提出了一种高质量的歌唱合成器，它能够在有限的可用录音基础上模拟出一种声音，采用序列到序列的歌唱模型，并设计了一个多歌手框架来利用不同歌手的现有歌唱数据，以减轻歌唱评分不平衡的问题。此外，为了使编码器输出与歌手无关，我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器（MRWDs）以使网络成为 GAN。客观和主观的评估表明，所提出的合成器比基准测试能够产生更高质量的歌唱声音（MOS 值分别为 4.12 和 3.53）。特别是高音元音的表达得到了显著改善。

Jun, 2020

RMSSinger：基于真实乐谱的歌声合成

本文提出 RMSSinger 方法，在基于真实音乐分数的歌唱声合成 (RMS-SVS) 领域第一次使用单词级模型，避免了繁琐的音素时长注释和复杂的音素级音符对齐，并进一步提出了第一种基于扩散过程的音高建模方法，在新的数据集上广泛实验，证明了我们方法的有效性。

May, 2023

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

使用无旋律监督预训练提升单音人声合成的音域

基于先前的研究，在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法，提高了单个说话人的声域，同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集，并改善了合成歌声的音质和节奏自然度。

Sep, 2023

HiFiSinger: 面向高保真神经歌声合成

本研究提出了一种名为 HiFiSinger 的 SVS 系统，通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型，使用小波变换处理声波时频信息，采用多级对抗训练，在高采样率情况下合成高保真度的歌唱声音。

Sep, 2020