本文提出了使用全卷积神经网络来解决低信噪比下听力辅助设备中存在的背景噪音干扰人类语音理解的问题。通过有监督学习找到含噪语音的频谱和纯净语音频谱之间的映射,提出了冗余卷积编码解码(R-CED)网络,该网络大小为递归网络的1/12,表现更好,能够应用于嵌入式系统:听力辅助设备。
Sep, 2016
本研究提出了一种可以按任意讲话者数量、噪声类型和语音信噪比水平进行横向扩展的 MS-SNSD 有噪语音数据集,在这个基础上,研究者们推出了开源的评估方法,通过客观质量衡量标准和主观意见评分相互印证提升了 语音增强算法的性能。
Sep, 2019
本文对Conv-TasNet进行了实证研究,并提出了基于非线性变体的编码器/解码器改进方法,实验表明这种改进可以将平均SI-SNR性能提高1 dB以上。此外,我们还探讨了Conv-TasNet的泛化能力和改进编码器/解码器的潜在价值。
Feb, 2020
通过使用模型压缩技术,我们成功地压缩了大规模循环神经网络,以满足计算资源受限的助听器上的使用需求。结果表明,在保持高质量音频输出的前提下,压缩模型的尺寸和操作数量分别减小了11.9倍和2.9倍,计算延迟为2.39毫秒。
May, 2020
介绍了交互式语音技术协会2020年举办的深度噪声抑制挑战赛,通过提供大规模干净语音和噪声语料库对话音频,以及基于ITU-T P.808的在线主观测试框架,比较了不同算法的噪声抑制效果。
使用深度学习技术对虚拟会议中移动设备传输的带噪语音进行增强,以提高手机网络通信质量。
Feb, 2023
本文提出了一个名为DeepVQE的基于深度学习模型的实时交叉关注方法来同时解决声学回声消除,噪声抑制和混响消除等多种语音处理问题,并在2023年ICASSP的测试集上取得了最佳性能表现。
Jun, 2023
噪声抑制和回声消除对于语音增强至关重要,是智能设备和实时通信的基础,而这些算法必须保证高效实时推断和低计算需求。我们提出了一种新的投影损失函数,用于增强噪声抑制效果,并且能够直接在LAEC预处理输出上进行回声消除的预测,从而显著提高模型性能。我们的噪声抑制模型仅使用3.1M个参数和0.4GFlops/s计算负载,实现了接近最先进的结果。此外,我们的回声消除模型胜过了复制的行业领先模型,引入了语音增强的新视角。
Nov, 2023
基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色,既具有可解释性又具有出色的音质性能。
Feb, 2024
本研究针对音频录音中的呼吸声去除问题,提出了一种创新的低参数模型,利用注意力U-Net架构实现自动检测与消除。该模型通过先进的深度学习技术,显著提升了效率与准确性,展现出显著的突破,使声音工程师节省时间,同时提高音频制作的质量与一致性。
Sep, 2024