实时全频段语音增强的混合 DSP / 深度学习方法
一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少,该方法利用两阶段处理框架,采用通道特征重定向来降低卷积运算的计算负荷,并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能,但具有显著较少的计算要求。值得注意的是,我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。
Dec, 2023
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
本文介绍了使用 DeepFilterNet 进行实时语音增强的演示。通过利用言语生产和心理声学感知的领域知识,该模型能够匹配最先进的语音增强基准,并在单线程笔记本 CPU 上实现了实时化因子 0.19。该框架及预训练权重已在开源协议下发布。
May, 2023
本文提出了一种称之为 PercepNet 的用于语音增强的深度学习方法,该方法仅需要短时间的傅里叶变换,通过聚焦于语音的谱包络和周期性,可以实现高质量、实时的全频带语音增强,仅需要不到 5% 的 CPU 核心。
Aug, 2020
本研究提出了一种针对语音信号去噪的端到端深度学习方法,采用完全卷积网络训练上下文聚合并使用深度特征损失函数。通过测试表明,相较于传统回归损失函数,该方法在去除最具挑战性噪音方面效果更加显著,具有较高的客观语音质量指标和人类感知实验结果。
Jun, 2018
Deep Noise Suppression Challenge aims to improve speech quality through open-sourced datasets and evaluation frameworks using two tracks focused on real-time denoising for wideband and full band scenarios, as well as making available a reliable objective speech quality metric called DNSMOS.
Jan, 2021
本文通过强化学习控制噪声抑制算法参数,从而提升算法的鲁棒性和整体性能,实验结果显示相较于无适应性的算法有着显著的 42% 和 16% 的输出 SNR 和 MSE 改进。
Nov, 2017
本文研究使用数据增强和信号规范化的深度学习方法用于语音增强,结果表明通过对信噪比、频谱和动态级别的增强可以提高训练效果,使用序列级别的规范化可以克服数据不平衡造成的降级问题。
Aug, 2020