DenoiSpeech：基于帧级噪声建模的去噪语音合成

Dec, 2020

DenoiSpeech：基于帧级噪声建模的去噪语音合成

DenoiSpeech: Denoising Text to Speech with Frame-Level Noise Modeling

Chen Zhang, Yi Ren, Xu Tan, Jinglin Liu, Kejun Zhang...

TL;DR本研究提出了 DenoiSpeech 系统，它可以处理具有高噪声变异的实际世界噪声，使用细粒度的帧级噪声建模噪声条件模块与 TTS 模型共同训练，实验结果表明，DenoiSpeech 在真实环境数据上的性能要优于之前提出的两种方法 0.31 和 0.66 MOS。

Abstract

While neural-based text to speech (TTS) models can synthesize natural and intelligible voice, they usually require high-quality speech data, which is costly to collect. In many scenarios, only noisy speech of a target speaker is available, which presents challenges for TTS model training for this speaker. Previous works usually address the challenge using tw

neural-based tts speech denoising noise condition module frame-level noise real-world data

发现论文，激发创造

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

零样本语音调制用于去噪扩散 TTS 模型

本文提出了一种新的方法，通过采样识别新目标的自然语音数据，并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频，而不需要进行任何训练步骤。

Jun, 2022

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

NoreSpeech: 基于知识蒸馏的条件扩散模型，用于噪声鲁棒性表达 TTS

本论文提出了一种噪声鲁棒的表现性文本转语音模型（NoreSpeech），它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中，这是通过一个新颖的 DiffStyle 模块，一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明，NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。

Nov, 2022

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

基于深度学习的语音增强去噪过程连续建模

本文研究了基于深度学习的语音增强中的连续建模方法，重点关注降噪过程。通过引入一个状态变量来表示降噪过程，训练中使用类似 UNet 结构的神经网络学习估计连续降噪过程中的每个状态变量，测试时引入一个控制因子作为嵌入，可调整噪声削减水平。该方法可以实现可控语音增强，并适用于不同的应用场景。实验结果显示，在清晰目标中保留少量噪声有助于语音增强，从客观语音指标和自动语音识别性能的改善来验证。

Sep, 2023

基于流匹配的零样本 TTS 的噪声稳健性研究

对于从噪声音频提示生成的语音合成，我们研究了多种策略来提高其质量，包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等，实验证明相较于应用语音增强到音频提示的方法，我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。

Jun, 2024

使用噪声混音训练和两阶段推断的无监督语音增强的教师 - 学生框架

本文提出了一种不需要主观 / 客观语音质量度量作为参考的教师 - 学生训练策略来改进先前提出的嘈杂目标训练策略，并使用该模型作为初始模型，实验结果表明我们的方法优于几个基准方法，尤其是在两阶段推理中。

Oct, 2022