基于 Transformer 的端到端多说话人语音识别

Feb, 2020

基于 Transformer 的端到端多说话人语音识别

End-to-End Multi-speaker Speech Recognition with Transformer

Xuankai Chang, Wangyou Zhang, Yanmin Qian, Jonathan Le Roux, Shinji Watanabe

TL;DR本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Abstract

Recently, fully recurrent neural network (RNN) based end-to-end models have been proven to be effective for multi-speaker speech recognition in both the single-channel and multi-channel scenarios. In this work, w

recurrent neural network transformer models speech recognition neural beamformer dereverberation preprocessing

发现论文，激发创造

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

大规模语音识别常用端到端模型比较

本研究比较了非流式和流式模式下三种端到端自动语音识别模型，包括循环神经网络转导器（RNN-T）、循环神经网络基于注意力的编码器 - 解码器（RNN-AED）和 Transformer-AED。研究表明，Transformer-AED 在流式和非流式模式下的精度最佳，并且在流式模式下如果其编码器可以正确初始化，RNN-T 也是一个具有竞争力的模型。与高度优化的混合模型相比，流式 RNN-T 和 Transformer-AED 模型均可以获得更好的精度。

May, 2020

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

Transformer-Transducer: 自注意力端到端语音识别

本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Oct, 2019

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

基于 Transformer 与 RNN 的语音应用比较研究

本文章研究了一种新兴的序列到序列模型 ——Transformer，并将它与传统 RNN 模型在 15 项 ASR、1 项多语言 ASR、1 项 ST 和 2 项 TTS 基准测试中进行了比较和分析，发现了各种训练技巧以及 Transformer 在各项任务中带来的显著性能优势，最终实验结果表明 Transformer 在 13/15 项 ASR 基准测试中比 RNN 具有惊人的优越性能。

Sep, 2019