具有自适应语音质量意识的复杂神经网络在有监督对比学习下的声学回声消除
本文提出了一个名为 DeepVQE 的基于深度学习模型的实时交叉关注方法来同时解决声学回声消除,噪声抑制和混响消除等多种语音处理问题,并在 2023 年 ICASSP 的测试集上取得了最佳性能表现。
Jun, 2023
噪声抑制和回声消除对于语音增强至关重要,是智能设备和实时通信的基础,而这些算法必须保证高效实时推断和低计算需求。我们提出了一种新的投影损失函数,用于增强噪声抑制效果,并且能够直接在 LAEC 预处理输出上进行回声消除的预测,从而显著提高模型性能。我们的噪声抑制模型仅使用 3.1M 个参数和 0.4GFlops/s 计算负载,实现了接近最先进的结果。此外,我们的回声消除模型胜过了复制的行业领先模型,引入了语音增强的新视角。
Nov, 2023
本文提出了使用全卷积神经网络来解决低信噪比下听力辅助设备中存在的背景噪音干扰人类语音理解的问题。通过有监督学习找到含噪语音的频谱和纯净语音频谱之间的映射,提出了冗余卷积编码解码(R-CED)网络,该网络大小为递归网络的 1/12,表现更好,能够应用于嵌入式系统:听力辅助设备。
Sep, 2016
通过探索网络架构,以及使用自然语音与面部动作之间的对应进行学习,我们提出了一种新颖的 TalkNCE 对比损失函数,可用于主动说话者检测任务,无需额外的监督或训练数据,可以与现有的主动说话者检测模型在 AVA-ActiveSpeaker 和 ASW 数据集上联合优化,从而提高其性能。
Sep, 2023
本研究提出了一种新的声音事件检测方法,使用卷积神经网络结合大的输入层来提取长时频结构特征,同时采用数据增强方法防止过拟合,实验表明该方法在声音事件检测上表现优异,超过了现有方法,取得了 16% 的绝对提升。
Apr, 2016
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
提出了一种音视频深度卷积神经网络(AVDCNN)语音增强模型,该模型在音频处理方面结合了视觉信息,并采用多任务学习框架进行重建音频和视觉信号。实验表明,该模型在语音增强方面表现显著优异,证明了整合视觉信息的有效性,并且优于现有的音频 - 视觉增强模型。
Sep, 2017
本研究提出了一种高效的端到端卷积神经网络架构 AclNet,该网络采用数据增强和正则化训练后,在 ESC-50 语料库上取得了 85:65%的准确率,且高效的运算和内存需求可开启能源高效平台的始终在线推理。
Nov, 2018
ASR Error Correction (AEC) is investigated to tackle the Low-Resource Out-of-Domain (LROOD) problem, covering pre-training, fine-tuning, and incorporating discrete speech units to improve AEC quality. The proposed AEC approach demonstrates feasibility, efficacy, generalizability, superiority, and suitability for downstream applications.
May, 2024
本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性,并在 LRS2 和 LRS3 数据集上进行了实验。结果表明,使用音频和视觉模态可以更好地识别存在环境噪声的语音,并显着加速训练,达到了 2.3%和 1.8%的字错误率。
Jan, 2023