本研究提出了一种新的深度学习模型,结合了视觉提示信息和音频信号,采用双向长短时记忆网络进行特征集成,以提高噪声下语音信号增强的质量。
Jun, 2016
该论文提出一种名为 SN-Net 的基于卷积神经网络的方法,通过引入多个交互模块,在中间的特征通道处同时建立对语音和噪声的模型。同时,利用残差卷积和注意力模块来捕获时间和频率特征,提高模型识别能力,在多项评估指标上优于现有最新技术,并对说话者分离具有卓越的性能表现。
Dec, 2020
通过引入预训练的语音增强模块和深度表示,我们提出了一种名为 TRNet 的双层细化网络,以解决语音情感识别中普遍存在的环境噪声问题,并实验证明该方法在匹配和非匹配噪声环境中显著提高了系统的鲁棒性,同时不损害其在清洁环境中的性能。
Apr, 2024
本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法,采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题,在各种数据集、任务和音频条件下均取得了优秀的效果。
Mar, 2017
本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略,并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中,该算法的词错误率达到了 7.09%。
Oct, 2016
基于深度神经网络和语音识别技术的语音理解模型,可高度精确地模拟听取语音信息的相关属性,不需要干净的语音参考或单词标签。
Mar, 2022
本文提出了一个改进的训练框架,用于训练单声道神经增强模型,以提高鲁棒语音识别的性能。该框架利用现有混合不变训练准则,扩展了未配对的干净语音和真实嘈杂数据,提高了从真实嘈杂语音中分离出来的语音质量,并通过处理和未处理信号的混合来缓解处理伪影。该方法在单通道 CHiME-3 真实测试集上进行实验证明,在不重新训练扭曲数据的情况下,与在监督模式下使用不匹配的模拟数据或在无监督模式下使用匹配的真实数据训练的增强系统相比,相对 WER 减少了 16% 到 39%。
May, 2022
这篇论文提出了一种相对简单的课程式的训练策略,称为 Accordion Annealing(ACCAN),它利用一个多阶段的训练计划来增加语音识别系统的噪声韧性,同时应用 Per-epoch Noise Mixing(PEM)方法来动态改变训练数据的信噪比,该方法在 20dB 至 - 10dB SNR 范围内的平均词错误率取得了 31.4%的下降。
通过深度神经网络,在复杂的真实环境中去除多种噪声,提高办公室环境中含噪语音的质量,并研究基于语音编码的心理声学模型的 DNN 训练策略。
May, 2016
本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型,可在语音辨识方面取得显著的效果,同时减少了参数和复杂性。
Mar, 2023