面向基于深度神经网络的远场语音识别的批量归一化联合训练
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
本研究使用深度神经网络(DNN)学习特征表示和亚音素后验概率,证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低,以及在 NIST 2011 语音识别评估测试中,在 30 秒测试条件下取得 48% 的 EER 降低。
Apr, 2015
文章提出了一种新颖的深度神经多任务学习框架,采用显式反馈策略联合建模识别和规范化任务,实现了一种将层次任务转化为并行的多任务设置,并保持任务之间的相互支持,从而显著提高了模型性能。实验证明,该方法在两个公开的医学文献数据集上的表现均显著优于现有方法。
Dec, 2018
使用端到端深度学习开发的演讲识别系统:不需要手工设计组件来模拟背景噪声、混响或者发言人差异,取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法,其关键是优化的 RNN 训练系统以及一组新的数据综合技术,该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率,优于以前的成果,并且与广泛使用的最先进的商业演讲系统相比,Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。
Dec, 2014
综述了最近发展的深度学习方法,介绍了前端和后端的单通道、多通道的技术,以及前后端联合训练框架,以解决自动语音识别中非平稳环境噪声的负面效果,目的是为环境适应型语音识别系统开发人员提供指导。
May, 2017
采用三种方法改进 DNN-HMM 系统的语音识别技术,包括使用不对称上下文窗口、近距离监督和近距离预训练,实验结果表明这三种方法的使用优势显着,与基线系统相比错误率降低了 15%。
Oct, 2017
本文讨论语音翻译中级联系统带来的挑战以及应对这些挑战的方法,研究表明,直接利用数据进行联合训练无法显著提高级联系统的性能,建议寻找其他有效的方法来提高语音翻译的效率。
Oct, 2022
研究卷积神经网络中的迁移学习在语音识别方面的应用,发现将来自不同任务的表示转移至声音专注的任务可以显著提高准确性。通过验证在音频数据集上使用更深层网络可以获得更好准确性的结果,提出一个使用扩张卷积的简单多尺度输入表示方法,以及通过将迁移学习和多尺度输入表示相结合来实现仅需要训练数据的 40% 即可获得相似准确性的模型。最后还提出多尺度输入和迁移学习的积极互动效应,表明两种技术的联合应用是有益的。
Oct, 2017
本文研究了一种联合的 ASR-SER 多任务学习方法,发现在低资源环境下,采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性,结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。
May, 2023