Transformer-Transducer: 自注意力端到端语音识别

Oct, 2019

Transformer-Transducer: 自注意力端到端语音识别

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Ching-Feng Yeh, Jay Mahadeokar, Kaustubh Kalgaonkar, Yongqiang Wang, Duc Le...

TL;DR本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Abstract

We explore options to use transformer networks in neural transducer for end-to-end speech recognition. transformer networks use

transformer networks neural transducer self-attention librispeech corpus streaming

发现论文，激发创造

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

Conv-Transformer 转换器：低延迟、低帧率、可流式传输的端到端语音识别

本研究设计了 Conv-Transformer Transducer 架构，在 LibriSpeech 数据集上实现了较强的流式语音识别性能，该架构适用于流式 ASR，且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统，拥有更小的前向窗口、更少的参数和更低的帧率。

Aug, 2020

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

探索神经传递器用于端到端语音识别

通过实证比较，证明 Seq2Seq 和 RNN-Transducer 模型在不使用语言模型的情况下都优于最佳的 CTC 模型，使得语音识别流程可以纯粹地表述为神经网络操作。我们还研究了编码器架构选择对三个模型性能的影响。

Jul, 2017

语音识别神经转换器的高效训练

本文提出一个高效的 3 阶段渐进训练管道，能够快速利用有限的计算资源训练出接近最新成果性能的转录模型，证明了每个阶段的有效性，并在 Librispeech 和 Switchboard 训练语料库上进行了实验证明。

Apr, 2022

使用 RNN-Transducer 探索流式端到端语音识别的架构、数据和单位

本研究使用循环神经网络传输器（RNN-T）来训练端到端语音识别模型，并探索了不同的模型架构。通过使用字元素（wordpieces），模型的性能进一步得到了提高，最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。

Jan, 2018

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

开发用于大规模数据集实时流式转换器转导器的语音识别系统

本文介绍了一种基于 Transform-XL 的可流式 Transformer-Transducer 模型的应用，用于语音识别中的低延迟且快速编码，比混合模型、RNN-Transducer 和流式 Transformer - 基于注意力的编码器 - 解码器模型具有更好的性能。

Oct, 2020

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020