深度降噪的数据增强和损失归一化
本研究提出了一种可以按任意讲话者数量、噪声类型和语音信噪比水平进行横向扩展的 MS-SNSD 有噪语音数据集,在这个基础上,研究者们推出了开源的评估方法,通过客观质量衡量标准和主观意见评分相互印证提升了 语音增强算法的性能。
Sep, 2019
本研究分析了不同噪声模型及其强度对卷积神经网络的影响,通过结构相似度(SSIM)度量给出相同大小的噪声模型来进行比较,提出了一些新的启发式策略和建议,可以优化图像分类的最优学习过程。
Jul, 2023
本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制,该方法使用了四层隐含层的深度神经网络来估计关键频带增益,并采用传统的基音滤波器抑制谐波之间的噪声,相比于传统的最小均方误差谱估计,该方法获得了显著更高的质量,在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。
Sep, 2017
一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少,该方法利用两阶段处理框架,采用通道特征重定向来降低卷积运算的计算负荷,并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能,但具有显著较少的计算要求。值得注意的是,我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。
Dec, 2023
本文介绍了一种基于原始数据集更清洁的假设,利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法,并应用简单的自正则化模块来防止在噪声标签上过拟合,该方法可应用于各种数据扩充技术,可以在文本分类和问答任务中提高性能。
Dec, 2022
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
本文研究了对 RNN(循环神经网络)的训练的多个方面,它们影响着实时单通道语音增强的客观和主观质量。具体而言,我们关注增强短时语音频谱的 RNN,在单帧输入单帧输出的基础上,这是大多数经典信号处理方法采用的框架。我们提出了两种基于均方误差的学习目标,可以实现对音频失真和噪声降低重要性的分别控制,并通过广泛接受的客观质量和可懂度指标进行评估,并与其他竞争性在线方法进行比较。此外,我们还研究了特征归一化和批次序列长度的变化对增强语音的客观质量的影响。最后,我们展示了所提出的方法和最先进的实时 RNN 方法的主观评分。
Jan, 2020
采用 “Deep Augmentation” 方法,通过在神经网络内部针对性地应用 dropout 实现数据增广,并采用 stop-gradient 操作进一步提高模型性能和泛化能力,在视觉和自然语言处理领域的对比学习任务中通过对 ResNets 和 Transformers 模型的广泛实验证明效果显著,与增广输入数据相比,针对深层模型的 Deep Augmentation 效果更好,而且该方法简单且对网络和数据无限制,方便集成到计算机视觉和自然语言处理流程中。
Mar, 2023
本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法,采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题,在各种数据集、任务和音频条件下均取得了优秀的效果。
Mar, 2017