用声学前瞻改进 RNN-Transducers

Jul, 2023

Improving RNN-Transducers with Acoustic LookAhead

Vinit S. Unni, Ashish Mittal, Preethi Jyothi, Sunita Sarawagi

TL;DR本文介绍一种名为 lookahead 的技术，它通过向后查看传入音频，使文本表示更具有声学基础，从而在域内外评估集上显着降低了 5％- 20％的词错误率。

Abstract

rnn-transducers (RNN-Ts) have gained widespread acceptance as an end-to-end model for speech to text conversion because of their high accuracy and streaming capabilities. A typical RNN-T independently encodes the input audio and the text context, and combines the two encodings by a thi

rnn-transducers speech-to-text conversion lookahead acoustic evidence word error rate

发现论文，激发创造

提升 RNN-T 中声音和文本表征的融合

本文提出在深度学习中使用门结构和双线性池化，在自动语音识别领域取得了较大的词错误率的优化。

Jan, 2022

使用 RNN-Transducer 探索流式端到端语音识别的架构、数据和单位

本研究使用循环神经网络传输器（RNN-T）来训练端到端语音识别模型，并探索了不同的模型架构。通过使用字元素（wordpieces），模型的性能进一步得到了提高，最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。

Jan, 2018

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

具备自定义能力的 RNN-T 模型超越高性能混合模型

本文中，我们介绍了最近开发的 RNN-T 模型，它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模，对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后，开发的 RNN-T 模型优于经过训练良好的混合模型，同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域，并比较了几种使用新领域纯文本数据的方法。研究发现，利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。

Jul, 2020

用于流式语音识别的卷积增强循环神经网络转录器 (ConvRNN-T)

本文主要介绍了一种新的流式自动语音识别模型 - 基于卷积增强循环神经网络传导器 (ConvRNN-T)，其中，作者通过引入局部和全局上下文 CNN 编码器作为卷积前端来增强 LSTM 的 RNN-T，并展示了其性能优于 RNN-T，Conformer 和 ContextNet 等现有的技术。此外，ConvRNN-T 具有更低的计算复杂度和更优的性能表现，是一种有前景的流式自动语音识别技术。

Sep, 2022

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

基于流式递归神经网络转录器的神经语言模型融合改进

本文提出了一种扩展技术，使 RNN-T 能够利用外部神经网络语言模型（NNLM），从而增强了 Librispeech 上 13-18％的相对词错误率，同时保持了系统的流畅性，灵活性和轻量性。

Oct, 2020