CleanUNet 2：基于波形和频谱的混合语音降噪模型

Sep, 2023

CleanUNet 2：基于波形和频谱的混合语音降噪模型

CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram

PDF

Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro

TL;DRCleanUNet 2 是一种语音降噪模型，将波形降噪器和声谱图降噪器的优点结合起来，通过一个由波形模型和声谱图模型组成的两阶段框架，进一步提高了性能，相比之前的方法在各种客观和主观评估中表现更好。

Abstract

In this work, we present cleanunet 2, a speech denoising model that combines the advantages of waveform denoiser and →

cleanunet 2 speech denoising model waveform denoiser spectrogram denoiser two-stage framework

发现论文，激发创造

基于 Wave-U-Net 的语音增强改进

研究了 Wave-U-Net 结构在语音增强中的应用，发现其在时域直接建模可以考虑大的时间上下文信息的特点下，可以在 Voice Bank corpus（VCTK）数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标，相比于其原始的音乐中唱声分离系统而言，基于少量隐藏层的结构更适合语音增强，该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号，并可以作为语音识别系统的预处理步骤。

Nov, 2018

基于深度复数 U-Net 的相位感知语音增强

通过三种方式解决相位估计问题，提出了基于复数建模的 Deep Complex U-Net，极坐标复数掩蔽方法和新型的 wSDR 损失函数，在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。

Mar, 2019

语音去噪的 Wavenet

该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法，旨在进行语音去噪处理，比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。

Jun, 2017

UnivNet: 带多分辨率频谱鉴别器的神经声码器，用于高保真波形生成

该研究提出了一种名为 UnivNet 的神经声码器，利用全频带谱特征作为输入，通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题，并在大量演讲者信息数据集上取得最佳客观和主观结果。

Jun, 2021

WeNet 2.0：更高效的端到端语音识别工具包

WeNet 2.0 introduces a unified two-pass framework with bidirectional attention decoders, n-gram based language model, contextual biasing framework, and unified IO to support large-scale data for effective model training, achieving up to 10% relative recognition performance improvement over the original WeNet on various corpora and making available several important production-oriented features.

Mar, 2022

面向声带激励的无需说话人信息的原始波形模型

本文提出一种基于 WaveNet 的声码器 GlotNet，通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器，实现跨多个说话人共享波形发生器模型，而且多测试显示该模型表现优于直接的 WaveNet 声码器。

Apr, 2018

通过在 Mel 频谱预测上调节 WaveNet，进行自然语音合成

该论文阐述了 Tacotron 2 的神经网络框架，该框架可以从文本中直接合成语音，其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成，能够实现与专业录制的语音相当的平均意见分数 (MOS)。

Dec, 2017

Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络

本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构，在处理长时间序列信号时取得了较好的分离效果，并通过改进输出层和追溯预测框架等结构进行优化，同时揭示了当前 SDR 指标存在的问题并提出了改进方案。

Jun, 2018

使用全卷积网络进行语音去混响

本文利用全卷积网络 (FCN) 来处理语音信号的混响问题，提出了用 U-Net 和 GAN 算法来处理时频短时傅里叶变换 (STFT) 表示的语音信号。通过与其他算法的比较，结果表明本文提出的方法在大多数情况下表现更好。

Mar, 2018

波形域中的实时语音增强

本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型，可直接处理原始波形并消除各种背景噪音及实现房间回声，进行了多项标准测试，且通过数据扩增进一步完善模型性能及泛化能力，达到了最先进的性能。

Jun, 2020