一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少,该方法利用两阶段处理框架,采用通道特征重定向来降低卷积运算的计算负荷,并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能,但具有显著较少的计算要求。值得注意的是,我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。
Dec, 2023
本文探讨了一种基于神经网络、以谱掩蔽为基础的单声道和双声道语音增强方法,最佳模型在 CHiME2 语音增强任务中的性能比先前的最先进性能提高了 0.4 分贝的信号失真比,并发现没有前瞻的模型在计算性能和参数数量与增强性能之间存在着权衡,可以在平均 0.03 dB SDR 内达到最佳双向模型的等效性能,此外,发现 200 毫秒的前瞻足以实现与最佳双向模型的等效性能。
Nov, 2018
本文针对顺序模型中高效采样的问题,提出了一种基于 WaveRNN 和权重修剪和子缩放 WaveRNN 的通用技术,可以在保持高输出质量的同时提高采样速度。
Feb, 2018
通过使用模型压缩技术,我们成功地压缩了大规模循环神经网络,以满足计算资源受限的助听器上的使用需求。结果表明,在保持高质量音频输出的前提下,压缩模型的尺寸和操作数量分别减小了 11.9 倍和 2.9 倍,计算延迟为 2.39 毫秒。
May, 2020
本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制,该方法使用了四层隐含层的深度神经网络来估计关键频带增益,并采用传统的基音滤波器抑制谐波之间的噪声,相比于传统的最小均方误差谱估计,该方法获得了显著更高的质量,在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。
Sep, 2017
本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解,讨论了可以有效利用可变长度上下文信息的语音识别模型,如 RNN、CNN 及其与其他模型的组合,以及优化了端对端性能的声学模型和鲁棒性训练策略,同时讨论了语音增强和分离等建模技术。
Apr, 2018
综述了最近发展的深度学习方法,介绍了前端和后端的单通道、多通道的技术,以及前后端联合训练框架,以解决自动语音识别中非平稳环境噪声的负面效果,目的是为环境适应型语音识别系统开发人员提供指导。
May, 2017
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
通过深度神经网络,在复杂的真实环境中去除多种噪声,提高办公室环境中含噪语音的质量,并研究基于语音编码的心理声学模型的 DNN 训练策略。
May, 2016
本文提出了一种基于卷积神经网络的语音识别方法,相对于传统的基于循环神经网络的模型使用更少的特征提取步骤,并在多项测试中取得了当下最佳的表现。
Dec, 2018