提升 RNN-T 中声音和文本表征的融合

Jan, 2022

提升 RNN-T 中声音和文本表征的融合

Improving the fusion of acoustic and text representations in RNN-T

Chao Zhang, Bo Li, Zhiyun Lu, Tara N. Sainath, Shuo-yiin Chang

TL;DR本文提出在深度学习中使用门结构和双线性池化，在自动语音识别领域取得了较大的词错误率的优化。

Abstract

The recurrent neural network transducer (RNN-T) has recently become the mainstream end-to-end approach for streaming automatic speech recognition (ASR). To estimate the output distributions over subword units, RN

recurrent neural network transducer automatic speech recognition acoustic encoder training gating bilinear pooling

发现论文，激发创造

使用 RNN-Transducer 探索流式端到端语音识别的架构、数据和单位

本研究使用循环神经网络传输器（RNN-T）来训练端到端语音识别模型，并探索了不同的模型架构。通过使用字元素（wordpieces），模型的性能进一步得到了提高，最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。

Jan, 2018

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

基于流式递归神经网络转录器的神经语言模型融合改进

本文提出了一种扩展技术，使 RNN-T 能够利用外部神经网络语言模型（NNLM），从而增强了 Librispeech 上 13-18％的相对词错误率，同时保持了系统的流畅性，灵活性和轻量性。

Oct, 2020

用于流式语音识别的卷积增强循环神经网络转录器 (ConvRNN-T)

本文主要介绍了一种新的流式自动语音识别模型 - 基于卷积增强循环神经网络传导器 (ConvRNN-T)，其中，作者通过引入局部和全局上下文 CNN 编码器作为卷积前端来增强 LSTM 的 RNN-T，并展示了其性能优于 RNN-T，Conformer 和 ContextNet 等现有的技术。此外，ConvRNN-T 具有更低的计算复杂度和更优的性能表现，是一种有前景的流式自动语音识别技术。

Sep, 2022

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

基于剪枝的 RNN-T 模型进行快速、高效的自动语音识别训练

该论文介绍了一种更快，更节省内存的 RNN-T 损失计算方法，用于提高语音识别系统的计算速度和效率。

Jun, 2022

具备自定义能力的 RNN-T 模型超越高性能混合模型

本文中，我们介绍了最近开发的 RNN-T 模型，它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模，对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后，开发的 RNN-T 模型优于经过训练良好的混合模型，同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域，并比较了几种使用新领域纯文本数据的方法。研究发现，利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。

Jul, 2020

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020