综述了最近发展的深度学习方法,介绍了前端和后端的单通道、多通道的技术,以及前后端联合训练框架,以解决自动语音识别中非平稳环境噪声的负面效果,目的是为环境适应型语音识别系统开发人员提供指导。
May, 2017
本研究提出了一种新的深度学习模型,结合了视觉提示信息和音频信号,采用双向长短时记忆网络进行特征集成,以提高噪声下语音信号增强的质量。
Jun, 2016
本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制,该方法使用了四层隐含层的深度神经网络来估计关键频带增益,并采用传统的基音滤波器抑制谐波之间的噪声,相比于传统的最小均方误差谱估计,该方法获得了显著更高的质量,在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。
Sep, 2017
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
使用深度学习技术对虚拟会议中移动设备传输的带噪语音进行增强,以提高手机网络通信质量。
Feb, 2023
一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少,该方法利用两阶段处理框架,采用通道特征重定向来降低卷积运算的计算负荷,并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能,但具有显著较少的计算要求。值得注意的是,我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。
Dec, 2023
本文研究使用数据增强和信号规范化的深度学习方法用于语音增强,结果表明通过对信噪比、频谱和动态级别的增强可以提高训练效果,使用序列级别的规范化可以克服数据不平衡造成的降级问题。
Aug, 2020
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法,并采用基于概率的编码以实现对任意数量声源的检测;此外,文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构,实验表明该方法优于传统的空间谱法。
Nov, 2017