面向鲁棒语音识别的语音增强和噪音感知网络

Mar, 2022

面向鲁棒语音识别的语音增强和噪音感知网络

Speech-enhanced and Noise-aware Networks for Robust Speech Recognition

Hung-Shin Lee, Pin-Yuan Chen, Yao-Fei Cheng, Yu Tsao, Hsin-Min Wang

TL;DR提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Abstract

Compensation for channel mismatch and noise interference is essential for robust automatic speech recognition. Enhanced speech has been introduced into the multi-condition training of acoustic models to improve t

speech recognition noise interference neural networks training framework feature enhancement

发现论文，激发创造

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

交互式语音和噪声模型用于语音增强

该论文提出一种名为 SN-Net 的基于卷积神经网络的方法，通过引入多个交互模块，在中间的特征通道处同时建立对语音和噪声的模型。同时，利用残差卷积和注意力模块来捕获时间和频率特征，提高模型识别能力，在多项评估指标上优于现有最新技术，并对说话者分离具有卓越的性能表现。

Dec, 2020

TRNet: 利用语音增强进行两级细化减噪鲁棒情感识别网络

通过引入预训练的语音增强模块和深度表示，我们提出了一种名为 TRNet 的双层细化网络，以解决语音情感识别中普遍存在的环境噪声问题，并实验证明该方法在匹配和非匹配噪声环境中显著提高了系统的鲁棒性，同时不损害其在清洁环境中的性能。

Apr, 2024

面向基于深度神经网络的远场语音识别的批量归一化联合训练

本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Mar, 2017

用于鲁棒性语音识别的非常深的卷积神经网络

本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略，并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中，该算法的词错误率达到了 7.09％。

Oct, 2016

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

混合不变训练下的单声道语音增强技术用于自动识别真实嘈杂语音

本文提出了一个改进的训练框架，用于训练单声道神经增强模型，以提高鲁棒语音识别的性能。该框架利用现有混合不变训练准则，扩展了未配对的干净语音和真实嘈杂数据，提高了从真实嘈杂语音中分离出来的语音质量，并通过处理和未处理信号的混合来缓解处理伪影。该方法在单通道 CHiME-3 真实测试集上进行实验证明，在不重新训练扭曲数据的情况下，与在监督模式下使用不匹配的模拟数据或在无监督模式下使用匹配的真实数据训练的增强系统相比，相对 WER 减少了 16% 到 39%。

May, 2022

一种用于提高自动语音识别中噪声稳健性的课程学习方法

这篇论文提出了一种相对简单的课程式的训练策略，称为 Accordion Annealing（ACCAN），它利用一个多阶段的训练计划来增加语音识别系统的噪声韧性，同时应用 Per-epoch Noise Mixing（PEM）方法来动态改变训练数据的信噪比，该方法在 20dB 至 - 10dB SNR 范围内的平均词错误率取得了 31.4％的下降。

Jun, 2016

使用深度神经网络在多噪声情况下进行语音增强

通过深度神经网络，在复杂的真实环境中去除多种噪声，提高办公室环境中含噪语音的质量，并研究基于语音编码的心理声学模型的 DNN 训练策略。

May, 2016

动态全局滤波器双流时间延迟神经网络在说话人验证中的应用

本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型，可在语音辨识方面取得显著的效果，同时减少了参数和复杂性。

Mar, 2023