面向基于深度神经网络的远场语音识别的批量归一化联合训练

Mar, 2017

面向基于深度神经网络的远场语音识别的批量归一化联合训练

Batch-normalized joint training for DNN-based distant speech recognition

Mirco Ravanelli, Philemon Brakel, Maurizio Omologo, Yoshua Bengio

TL;DR本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Abstract

Improving distant speech recognition is a crucial step towards flexible human-machine interfaces. Current technology, however, still exhibits a lack of robustness, especially when adverse acoustic conditions are met. Despite the significant progress made in the last years on both

distant speech recognition speech enhancement deep neural network joint training batch normalization

发现论文，激发创造

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

语音和语言识别的统一深度神经网络

本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Apr, 2015

一种神经多任务学习框架，联合建模医疗实体识别和归一化

文章提出了一种新颖的深度神经多任务学习框架，采用显式反馈策略联合建模识别和规范化任务，实现了一种将层次任务转化为并行的多任务设置，并保持任务之间的相互支持，从而显著提高了模型性能。实验证明，该方法在两个公开的医学文献数据集上的表现均显著优于现有方法。

Dec, 2018

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

面向环境鲁棒的语音识别深度学习：近期发展综述

综述了最近发展的深度学习方法，介绍了前端和后端的单通道、多通道的技术，以及前后端联合训练框架，以解决自动语音识别中非平稳环境噪声的负面效果，目的是为环境适应型语音识别系统开发人员提供指导。

May, 2017

用于稳健的 DNN-HMM 远场语音识别的污染语音训练方法

采用三种方法改进 DNN-HMM 系统的语音识别技术，包括使用不对称上下文窗口、近距离监督和近距离预训练，实验结果表明这三种方法的使用优势显着，与基线系统相比错误率降低了 15％。

Oct, 2017

联合训练是否真的有助于级联语音翻译？

本文讨论语音翻译中级联系统带来的挑战以及应对这些挑战的方法，研究表明，直接利用数据进行联合训练无法显著提高级联系统的性能，建议寻找其他有效的方法来提高语音翻译的效率。

Oct, 2022

倾听世界，提高语音命令识别

研究卷积神经网络中的迁移学习在语音识别方面的应用，发现将来自不同任务的表示转移至声音专注的任务可以显著提高准确性。通过验证在音频数据集上使用更深层网络可以获得更好准确性的结果，提出一个使用扩张卷积的简单多尺度输入表示方法，以及通过将迁移学习和多尺度输入表示相结合来实现仅需要训练数据的 40% 即可获得相似准确性的模型。最后还提出多尺度输入和迁移学习的积极互动效应，表明两种技术的联合应用是有益的。

Oct, 2017

关于共同学习语音情感识别和自动语音识别的有效性和噪声稳健性

本文研究了一种联合的 ASR-SER 多任务学习方法，发现在低资源环境下，采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性，结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。

May, 2023