交互式语音和噪声模型用于语音增强
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
本文提出了一种基于脉冲神经网络(SNN)和 U-Net 架构的能量高效语音增强模型,该模型在处理带有时间维度的数据(例如语音)和应用于资源有限设备上具有良好的性能,实验结果表明所提出的 SNN 模型在能量高效性上优于 Intel Neuromorphic Deep Noise Suppression Challenge(Intel N-DNS Challenge)基准解决方案,并实现了与等效 ANN 模型相当的性能。
Jul, 2023
通过引入预训练的语音增强模块和深度表示,我们提出了一种名为 TRNet 的双层细化网络,以解决语音情感识别中普遍存在的环境噪声问题,并实验证明该方法在匹配和非匹配噪声环境中显著提高了系统的鲁棒性,同时不损害其在清洁环境中的性能。
Apr, 2024
本文提出了一种基于去噪声码器的语音增强方法,利用自监督学习获取语音的相关特征,并采用最佳的自监督学习配置,采用对抗训练方式进行声音去噪,最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。
Nov, 2022
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
该论文提出了一种基于因果推断范式的语音增强方法,使用噪声检测器将噪声存在建模为干预因素,通过两个基于掩蔽的增强模块进行噪声条件下的分离,建立了特定的平均处理效应来量化因果效应,并在实验证明了该方法的高效性和优越性。
Nov, 2022
本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法,采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题,在各种数据集、任务和音频条件下均取得了优秀的效果。
Mar, 2017
本研究提出了一种名为 Saliency-aware Noise Blending(SNB)的简单而有效的方法,旨在将文本引导扩散模型组合起来以实现更可控的生成,并在各种应用中展现出令人印象深刻的有效性。
Mar, 2023