实时全频段语音增强的混合 DSP / 深度学习方法

MMSep, 2017

实时全频段语音增强的混合 DSP / 深度学习方法

A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement

Jean-Marc Valin

TL;DR本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制，该方法使用了四层隐含层的深度神经网络来估计关键频带增益，并采用传统的基音滤波器抑制谐波之间的噪声，相比于传统的最小均方误差谱估计，该方法获得了显著更高的质量，在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。

Abstract

Despite noise suppression being a mature area in signal processing, it remains highly dependent on fine tuning of estimator algorithms and parameters. In this paper, we demonstrate a hybrid DSP/→

noise suppression signal processing deep learning neural network real-time operation

发现论文，激发创造

基于极低复杂度深度学习的噪声抑制

一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少，该方法利用两阶段处理框架，采用通道特征重定向来降低卷积运算的计算负荷，并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能，但具有显著较少的计算要求。值得注意的是，我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。

Dec, 2023

面向实时深度噪声抑制的高效模型

本文研究深度学习模型在语音增强方面的应用，并探讨了网络复杂度与可达到的语音质量之间的关系，考虑了网络在回声环境下的训练。研究表明，网络的复杂度是影响语音质量的一个重要因素。

Jan, 2021

DeepFilterNet：感知驱动的实时语音增强

本文介绍了使用 DeepFilterNet 进行实时语音增强的演示。通过利用言语生产和心理声学感知的领域知识，该模型能够匹配最先进的语音增强基准，并在单线程笔记本 CPU 上实现了实时化因子 0.19。该框架及预训练权重已在开源协议下发布。

May, 2023

一种感知动机的方法用于低复杂度、实时完整语音的增强

本文提出了一种称之为 PercepNet 的用于语音增强的深度学习方法，该方法仅需要短时间的傅里叶变换，通过聚焦于语音的谱包络和周期性，可以实现高质量、实时的全频带语音增强，仅需要不到 5% 的 CPU 核心。

Aug, 2020

使用深度神经网络在多噪声情况下进行语音增强

通过深度神经网络，在复杂的真实环境中去除多种噪声，提高办公室环境中含噪语音的质量，并研究基于语音编码的心理声学模型的 DNN 训练策略。

May, 2016

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

使用深度特征损失进行语音去噪

本研究提出了一种针对语音信号去噪的端到端深度学习方法，采用完全卷积网络训练上下文聚合并使用深度特征损失函数。通过测试表明，相较于传统回归损失函数，该方法在去除最具挑战性噪音方面效果更加显著，具有较高的客观语音质量指标和人类感知实验结果。

Jun, 2018

Interspeech 2021 深度降噪挑战

Deep Noise Suppression Challenge aims to improve speech quality through open-sourced datasets and evaluation frameworks using two tracks focused on real-time denoising for wideband and full band scenarios, as well as making available a reliable objective speech quality metric called DNSMOS.

Jan, 2021

强化学习自适应语音增强至瞬时输入信号质量

本文通过强化学习控制噪声抑制算法参数，从而提升算法的鲁棒性和整体性能，实验结果显示相较于无适应性的算法有着显著的 42% 和 16% 的输出 SNR 和 MSE 改进。

Nov, 2017

深度降噪的数据增强和损失归一化

本文研究使用数据增强和信号规范化的深度学习方法用于语音增强，结果表明通过对信噪比、频谱和动态级别的增强可以提高训练效果，使用序列级别的规范化可以克服数据不平衡造成的降级问题。

Aug, 2020