本研究使用循环神经网络传输器(RNN-T)来训练端到端语音识别模型,并探索了不同的模型架构。通过使用字元素(wordpieces),模型的性能进一步得到了提高,最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。
Jan, 2018
本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法,证明了这些方法能够有效地降低字词错误率,从而保持大型文本语料库的信息。
Nov, 2020
本文提出了一种扩展技术,使 RNN-T 能够利用外部神经网络语言模型(NNLM),从而增强了 Librispeech 上 13-18%的相对词错误率,同时保持了系统的流畅性,灵活性和轻量性。
Oct, 2020
本文主要介绍了一种新的流式自动语音识别模型 - 基于卷积增强循环神经网络传导器 (ConvRNN-T),其中,作者通过引入局部和全局上下文 CNN 编码器作为卷积前端来增强 LSTM 的 RNN-T,并展示了其性能优于 RNN-T,Conformer 和 ContextNet 等现有的技术。此外,ConvRNN-T 具有更低的计算复杂度和更优的性能表现,是一种有前景的流式自动语音识别技术。
Sep, 2022
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
该论文介绍了一种更快,更节省内存的 RNN-T 损失计算方法,用于提高语音识别系统的计算速度和效率。
Jun, 2022
本文中,我们介绍了最近开发的 RNN-T 模型,它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模,对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后,开发的 RNN-T 模型优于经过训练良好的混合模型,同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域,并比较了几种使用新领域纯文本数据的方法。研究发现,利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。
Jul, 2020
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型,结合了深度神经网络和双向长短期记忆网络,在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。
Apr, 2015
这篇论文提出对 RNN-T 模型进行修改,以利用附带的元数据文本,从而改善对于命名实体词汇的识别,并在社交媒体视频数据集上取得了 16% 左右的提升。
Jun, 2020