语音去噪的 Wavenet

Jun, 2017

A Wavenet for Speech Denoising

Dario Rethage, Jordi Pons, Xavier Serra

TL;DR该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法，旨在进行语音去噪处理，比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。

Abstract

Currently, most speech processing techniques use magnitude spectrograms as front-end and are therefore by default discarding part of the signal: the phase. In order to overcome this limitation, we propose an end-to-end learning method for speech →

speech processing wavenet denoising convolutions supervised learning

发现论文，激发创造

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

基于深度复数 U-Net 的相位感知语音增强

通过三种方式解决相位估计问题，提出了基于复数建模的 Deep Complex U-Net，极坐标复数掩蔽方法和新型的 wSDR 损失函数，在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。

Mar, 2019

Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络

本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构，在处理长时间序列信号时取得了较好的分离效果，并通过改进输出层和追溯预测框架等结构进行优化，同时揭示了当前 SDR 指标存在的问题并提出了改进方案。

Jun, 2018

基于 Wave-U-Net 的语音增强改进

研究了 Wave-U-Net 结构在语音增强中的应用，发现其在时域直接建模可以考虑大的时间上下文信息的特点下，可以在 Voice Bank corpus（VCTK）数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标，相比于其原始的音乐中唱声分离系统而言，基于少量隐藏层的结构更适合语音增强，该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号，并可以作为语音识别系统的预处理步骤。

Nov, 2018

使用深度特征损失进行语音去噪

本研究提出了一种针对语音信号去噪的端到端深度学习方法，采用完全卷积网络训练上下文聚合并使用深度特征损失函数。通过测试表明，相较于传统回归损失函数，该方法在去除最具挑战性噪音方面效果更加显著，具有较高的客观语音质量指标和人类感知实验结果。

Jun, 2018

基于神经源 - 滤波器的波形模型用于统计参数语音合成

该研究提出了一种非自回归神经源滤波波形模型，它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练，并生成至少比 AR WaveNet 快 100 倍的波形，生成的合成语音质量与 AR WaveNet 的语音生成质量接近，其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。

Oct, 2018

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

端到端音乐源分离：在波形领域是否可能？

本论文研究使用端到端模型进行音乐信号源分离，在考虑所有可用信息的基础上实现对原始音频信号（包括相位部分）的源分离。结果表明，我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep，一个基于谱图的深度学习模型。

Oct, 2018

波形域中的实时语音增强

本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型，可直接处理原始波形并消除各种背景噪音及实现房间回声，进行了多项标准测试，且通过数据扩增进一步完善模型性能及泛化能力，达到了最先进的性能。

Jun, 2020

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018