具备自定义能力的 RNN-T 模型超越高性能混合模型

Jul, 2020

具备自定义能力的 RNN-T 模型超越高性能混合模型

Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization Capability

Jinyu Li, Rui Zhao, Zhong Meng, Yanqing Liu, Wenning Wei...

TL;DR本文中，我们介绍了最近开发的 RNN-T 模型，它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模，对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后，开发的 RNN-T 模型优于经过训练良好的混合模型，同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域，并比较了几种使用新领域纯文本数据的方法。研究发现，利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。

Abstract

Because of its streaming nature, recurrent neural network transducer (RNN-T) is a very promising end-to-end (E2E) model that may replace the popular hybrid model for automatic speech recognition. In this paper, w

recurrent neural network transducer end-to-end model automatic speech recognition gpu memory consumption domain customization

发现论文，激发创造

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

使用 RNN-Transducer 探索流式端到端语音识别的架构、数据和单位

本研究使用循环神经网络传输器（RNN-T）来训练端到端语音识别模型，并探索了不同的模型架构。通过使用字元素（wordpieces），模型的性能进一步得到了提高，最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。

Jan, 2018

大规模语音识别常用端到端模型比较

本研究比较了非流式和流式模式下三种端到端自动语音识别模型，包括循环神经网络转导器（RNN-T）、循环神经网络基于注意力的编码器 - 解码器（RNN-AED）和 Transformer-AED。研究表明，Transformer-AED 在流式和非流式模式下的精度最佳，并且在流式模式下如果其编码器可以正确初始化，RNN-T 也是一个具有竞争力的模型。与高度优化的混合模型相比，流式 RNN-T 和 Transformer-AED 模型均可以获得更好的精度。

May, 2020

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

一种超越服务器传统模型质量和延迟的流式设备端到端模型

本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型，不仅在精度上，而且在延迟方面超越了传统模型，并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡，例如，在相同的延迟下，RNN-T+LAS 相对识别准确率提高了 8％，模型尺寸也缩小了 400 多倍。

Mar, 2020

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

移动设备端到端语音识别流式处理

本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力，該模型可以以流式方式在實時下進行解碼，能夠應對各種需求，能利用特定用戶的上下文信息，並超越基於 CTC 的模型在各評價指標中的性能表現。

Nov, 2018

基于文本的 RNN-Transducer 预测网络快速领域自适应

本文研究了如何使用少量文本数据来有效地将 RNN-transducer 模型适应于新的领域，同时保持较好的泛化能力，避免了复杂的解码和外部语言模型需要。同时，本文表明该方法在目标任务的 ASR 评估中可以提供相对增益 10-45% 的性能提升，并分享了 RNN-transducer 预测网络作为语言模型的性能表现等相关见解。

Apr, 2021

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020