交互式语音和噪声模型用于语音增强

AAAIDec, 2020

交互式语音和噪声模型用于语音增强

Interactive Speech and Noise Modeling for Speech Enhancement

Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu

TL;DR该论文提出一种名为 SN-Net 的基于卷积神经网络的方法，通过引入多个交互模块，在中间的特征通道处同时建立对语音和噪声的模型。同时，利用残差卷积和注意力模块来捕获时间和频率特征，提高模型识别能力，在多项评估指标上优于现有最新技术，并对说话者分离具有卓越的性能表现。

Abstract

speech enhancement is challenging because of the diversity of background noise types. Most of the existing methods are focused on modelling the speech rather than the noise. In this paper, we propose a novel idea to model speech and noise simultaneously in a two-branch →

speech enhancement convolutional neural network noise modelling interaction module feature extraction

发现论文，激发创造

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

使用 U-Net 脉冲神经网络的单信道语音增强

本文提出了一种基于脉冲神经网络（SNN）和 U-Net 架构的能量高效语音增强模型，该模型在处理带有时间维度的数据（例如语音）和应用于资源有限设备上具有良好的性能，实验结果表明所提出的 SNN 模型在能量高效性上优于 Intel Neuromorphic Deep Noise Suppression Challenge（Intel N-DNS Challenge）基准解决方案，并实现了与等效 ANN 模型相当的性能。

Jul, 2023

使用深度神经网络在多噪声情况下进行语音增强

通过深度神经网络，在复杂的真实环境中去除多种噪声，提高办公室环境中含噪语音的质量，并研究基于语音编码的心理声学模型的 DNN 训练策略。

May, 2016

TRNet: 利用语音增强进行两级细化减噪鲁棒情感识别网络

通过引入预训练的语音增强模块和深度表示，我们提出了一种名为 TRNet 的双层细化网络，以解决语音情感识别中普遍存在的环境噪声问题，并实验证明该方法在匹配和非匹配噪声环境中显著提高了系统的鲁棒性，同时不损害其在清洁环境中的性能。

Apr, 2024

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

因果推断为基础的神经语音增强中的推断和去噪

该论文提出了一种基于因果推断范式的语音增强方法，使用噪声检测器将噪声存在建模为干预因素，通过两个基于掩蔽的增强模块进行噪声条件下的分离，建立了特定的平均处理效应来量化因果效应，并在实验证明了该方法的高效性和优越性。

Nov, 2022

面向基于深度神经网络的远场语音识别的批量归一化联合训练

本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Mar, 2017

MagicFusion: 通过融合 Diffusion 模型改善文本到图像生成性能

本研究提出了一种名为 Saliency-aware Noise Blending（SNB）的简单而有效的方法，旨在将文本引导扩散模型组合起来以实现更可控的生成，并在各种应用中展现出令人印象深刻的有效性。

Mar, 2023