深度降噪的数据增强和损失归一化

Aug, 2020

深度降噪的数据增强和损失归一化

Data augmentation and loss normalization for deep noise suppression

Sebastian Braun, Ivan Tashev

TL;DR本文研究使用数据增强和信号规范化的深度学习方法用于语音增强，结果表明通过对信噪比、频谱和动态级别的增强可以提高训练效果，使用序列级别的规范化可以克服数据不平衡造成的降级问题。

Abstract

speech enhancement using neural networks is recently receiving large attention in research and being integrated in commercial devices and applications. In this work, we investigate →

speech enhancement neural networks data augmentation deep learning signal normalization

发现论文，激发创造

一种可扩展的嘈杂语音数据集和在线主观测试框架

本研究提出了一种可以按任意讲话者数量、噪声类型和语音信噪比水平进行横向扩展的 MS-SNSD 有噪语音数据集，在这个基础上，研究者们推出了开源的评估方法，通过客观质量衡量标准和主观意见评分相互印证提升了语音增强算法的性能。

Sep, 2019

卷积神经网络训练中的数据增强：对图像注入噪声

本研究分析了不同噪声模型及其强度对卷积神经网络的影响，通过结构相似度（SSIM）度量给出相同大小的噪声模型来进行比较，提出了一些新的启发式策略和建议，可以优化图像分类的最优学习过程。

Jul, 2023

实时全频段语音增强的混合 DSP / 深度学习方法

本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制，该方法使用了四层隐含层的深度神经网络来估计关键频带增益，并采用传统的基音滤波器抑制谐波之间的噪声，相比于传统的最小均方误差谱估计，该方法获得了显著更高的质量，在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。

Sep, 2017

使用深度神经网络在多噪声情况下进行语音增强

通过深度神经网络，在复杂的真实环境中去除多种噪声，提高办公室环境中含噪语音的质量，并研究基于语音编码的心理声学模型的 DNN 训练策略。

May, 2016

基于极低复杂度深度学习的噪声抑制

一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少，该方法利用两阶段处理框架，采用通道特征重定向来降低卷积运算的计算负荷，并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能，但具有显著较少的计算要求。值得注意的是，我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。

Dec, 2023

自然语言理解中的即时数据增强去噪

本文介绍了一种基于原始数据集更清洁的假设，利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法，并应用简单的自正则化模块来防止在噪声标签上过拟合，该方法可应用于各种数据扩充技术，可以在文本分类和问答任务中提高性能。

Dec, 2022

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

基于神经网络的实时语音增强加权失真损失

本文研究了对 RNN（循环神经网络）的训练的多个方面，它们影响着实时单通道语音增强的客观和主观质量。具体而言，我们关注增强短时语音频谱的 RNN，在单帧输入单帧输出的基础上，这是大多数经典信号处理方法采用的框架。我们提出了两种基于均方误差的学习目标，可以实现对音频失真和噪声降低重要性的分别控制，并通过广泛接受的客观质量和可懂度指标进行评估，并与其他竞争性在线方法进行比较。此外，我们还研究了特征归一化和批次序列长度的变化对增强语音的客观质量的影响。最后，我们展示了所提出的方法和最先进的实时 RNN 方法的主观评分。

Jan, 2020

在高激活空间中通过变换增强自监督学习的深度增强

采用 “Deep Augmentation” 方法，通过在神经网络内部针对性地应用 dropout 实现数据增广，并采用 stop-gradient 操作进一步提高模型性能和泛化能力，在视觉和自然语言处理领域的对比学习任务中通过对 ResNets 和 Transformers 模型的广泛实验证明效果显著，与增广输入数据相比，针对深层模型的 Deep Augmentation 效果更好，而且该方法简单且对网络和数据无限制，方便集成到计算机视觉和自然语言处理流程中。

Mar, 2023

面向基于深度神经网络的远场语音识别的批量归一化联合训练

本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Mar, 2017