具有自适应语音质量意识的复杂神经网络在有监督对比学习下的声学回声消除

Oct, 2022

具有自适应语音质量意识的复杂神经网络在有监督对比学习下的声学回声消除

Adaptive Speech Quality Aware Complex Neural Network for Acoustic Echo Cancellation with Supervised Contrastive Learning

PDF

Bozhong Liu, Xiaoxi Yu, Hantao Huang

TL;DR本文提出一个基于复杂神经网络的自适应语音质量模型，其中采用了特征提取、声学分离和掩码优化等不同阶段的复杂模块化神经网络，采用对比学习框架和新颖的语音质量感知损失函数来进一步提高性能，该模型在 72 小时的预训练和 72 小时的微调中训练，表现优于最先进的性能。

Abstract

acoustic echo cancellation (AEC) is designed to remove echoes, reverberation, and unwanted added sounds from the microphone signal while maintaining the quality of the near-end speaker's speech. This paper proposes adaptive speech quality complex →

acoustic echo cancellation speech quality neural networks real-time contrastive learning

发现论文，激发创造

DeepVQE: 实时深度语音质量增强，用于联合声学回声消除、噪音抑制和除混响

本文提出了一个名为 DeepVQE 的基于深度学习模型的实时交叉关注方法来同时解决声学回声消除，噪声抑制和混响消除等多种语音处理问题，并在 2023 年 ICASSP 的测试集上取得了最佳性能表现。

Jun, 2023

CheapNET: 通过投影损失函数改进轻量级语音增强网络

噪声抑制和回声消除对于语音增强至关重要，是智能设备和实时通信的基础，而这些算法必须保证高效实时推断和低计算需求。我们提出了一种新的投影损失函数，用于增强噪声抑制效果，并且能够直接在 LAEC 预处理输出上进行回声消除的预测，从而显著提高模型性能。我们的噪声抑制模型仅使用 3.1M 个参数和 0.4GFlops/s 计算负载，实现了接近最先进的结果。此外，我们的回声消除模型胜过了复制的行业领先模型，引入了语音增强的新视角。

Nov, 2023

一种用于语音增强的全卷积神经网络

本文提出了使用全卷积神经网络来解决低信噪比下听力辅助设备中存在的背景噪音干扰人类语音理解的问题。通过有监督学习找到含噪语音的频谱和纯净语音频谱之间的映射，提出了冗余卷积编码解码（R-CED）网络，该网络大小为递归网络的 1/12，表现更好，能够应用于嵌入式系统：听力辅助设备。

Sep, 2016

TalkNCE：利用 Talk-Aware 对比学习改进主动说话者检测

通过探索网络架构，以及使用自然语音与面部动作之间的对应进行学习，我们提出了一种新颖的 TalkNCE 对比损失函数，可用于主动说话者检测任务，无需额外的监督或训练数据，可以与现有的主动说话者检测模型在 AVA-ActiveSpeaker 和 ASW 数据集上联合优化，从而提高其性能。

Sep, 2023

使用深度卷积神经网络和数据增强进行声学事件检测

本研究提出了一种新的声音事件检测方法，使用卷积神经网络结合大的输入层来提取长时频结构特征，同时采用数据增强方法防止过拟合，实验表明该方法在声音事件检测上表现优异，超过了现有方法，取得了 16% 的绝对提升。

Apr, 2016

面向实时深度噪声抑制的高效模型

本文研究深度学习模型在语音增强方面的应用，并探讨了网络复杂度与可达到的语音质量之间的关系，考虑了网络在回声环境下的训练。研究表明，网络的复杂度是影响语音质量的一个重要因素。

Jan, 2021

多模态深度卷积神经网络实现音视频语音增强

提出了一种音视频深度卷积神经网络（AVDCNN）语音增强模型，该模型在音频处理方面结合了视觉信息，并采用多任务学习框架进行重建音频和视觉信号。实验表明，该模型在语音增强方面表现显著优异，证明了整合视觉信息的有效性，并且优于现有的音频 - 视觉增强模型。

Sep, 2017

AclNet：高效端到端音频分类卷积神经网络

本研究提出了一种高效的端到端卷积神经网络架构 AclNet，该网络采用数据增强和正则化训练后，在 ESC-50 语料库上取得了 85:65％的准确率，且高效的运算和内存需求可开启能源高效平台的始终在线推理。

Nov, 2018

跨模态离散语音单元的 ASR 错误修正

ASR Error Correction (AEC) is investigated to tackle the Low-Resource Out-of-Domain (LROOD) problem, covering pre-training, fine-tuning, and incorporating discrete speech units to improve AEC quality. The proposed AEC approach demonstrates feasibility, efficacy, generalizability, superiority, and suitability for downstream applications.

May, 2024

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023