CleanUNet 2:基于波形和频谱的混合语音降噪模型
研究了 Wave-U-Net 结构在语音增强中的应用,发现其在时域直接建模可以考虑大的时间上下文信息的特点下,可以在 Voice Bank corpus(VCTK)数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标,相比于其原始的音乐中唱声分离系统而言,基于少量隐藏层的结构更适合语音增强,该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号,并可以作为语音识别系统的预处理步骤。
Nov, 2018
通过三种方式解决相位估计问题,提出了基于复数建模的 Deep Complex U-Net,极坐标复数掩蔽方法和新型的 wSDR 损失函数,在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。
Mar, 2019
该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法,旨在进行语音去噪处理,比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。
Jun, 2017
该研究提出了一种名为 UnivNet 的神经声码器,利用全频带谱特征作为输入,通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题,并在大量演讲者信息数据集上取得最佳客观和主观结果。
Jun, 2021
WeNet 2.0 introduces a unified two-pass framework with bidirectional attention decoders, n-gram based language model, contextual biasing framework, and unified IO to support large-scale data for effective model training, achieving up to 10% relative recognition performance improvement over the original WeNet on various corpora and making available several important production-oriented features.
Mar, 2022
本文提出一种基于 WaveNet 的声码器 GlotNet,通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器,实现跨多个说话人共享波形发生器模型,而且多测试显示该模型表现优于直接的 WaveNet 声码器。
Apr, 2018
该论文阐述了 Tacotron 2 的神经网络框架,该框架可以从文本中直接合成语音,其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成,能够实现与专业录制的语音相当的平均意见分数 (MOS)。
Dec, 2017
本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构,在处理长时间序列信号时取得了较好的分离效果,并通过改进输出层和追溯预测框架等结构进行优化,同时揭示了当前 SDR 指标存在的问题并提出了改进方案。
Jun, 2018
本文利用全卷积网络 (FCN) 来处理语音信号的混响问题,提出了用 U-Net 和 GAN 算法来处理时频短时傅里叶变换 (STFT) 表示的语音信号。通过与其他算法的比较,结果表明本文提出的方法在大多数情况下表现更好。
Mar, 2018
本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型,可直接处理原始波形并消除各种背景噪音及实现房间回声,进行了多项标准测试,且通过数据扩增进一步完善模型性能及泛化能力,达到了最先进的性能。
Jun, 2020