用声学前瞻改进 RNN-Transducers
本研究使用循环神经网络传输器(RNN-T)来训练端到端语音识别模型,并探索了不同的模型架构。通过使用字元素(wordpieces),模型的性能进一步得到了提高,最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。
Jan, 2018
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
该论文提出了一种端到端的语音识别模型,使用 Transformer 编码器可用于流媒体语音识别系统;该模型在 LibriSpeech 数据集上进行了实验结果,结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的,并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。
Feb, 2020
本文中,我们介绍了最近开发的 RNN-T 模型,它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模,对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后,开发的 RNN-T 模型优于经过训练良好的混合模型,同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域,并比较了几种使用新领域纯文本数据的方法。研究发现,利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。
Jul, 2020
本文主要介绍了一种新的流式自动语音识别模型 - 基于卷积增强循环神经网络传导器 (ConvRNN-T),其中,作者通过引入局部和全局上下文 CNN 编码器作为卷积前端来增强 LSTM 的 RNN-T,并展示了其性能优于 RNN-T,Conformer 和 ContextNet 等现有的技术。此外,ConvRNN-T 具有更低的计算复杂度和更优的性能表现,是一种有前景的流式自动语音识别技术。
Sep, 2022
这篇论文提出对 RNN-T 模型进行修改,以利用附带的元数据文本,从而改善对于命名实体词汇的识别,并在社交媒体视频数据集上取得了 16% 左右的提升。
Jun, 2020
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
本文介绍了如何将神经转录器引入流式端到端语音翻译(ST)中,提出了基于注意力池化的 Transformer transducer(TT)模型以及在多语言 ST 中的应用,结果表明 TT 模型不仅显著减少了推理时间,而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。
Apr, 2022
本文提出了一种扩展技术,使 RNN-T 能够利用外部神经网络语言模型(NNLM),从而增强了 Librispeech 上 13-18%的相对词错误率,同时保持了系统的流畅性,灵活性和轻量性。
Oct, 2020