全球归一化模型的流式语音识别系统

Jul, 2023

全球归一化模型的流式语音识别系统

Globally Normalising the Transducer for Streaming Speech Recognition

Rogier van Dalen

TL;DR拟稿提议使用全局标准化来解决流式模型的数学缺陷，从而缩小流式模式和前瞻模式之间的差距。全局标准化可将词错误率相对降低 9-11%。

Abstract

The transducer (e.g. RNN-transducer or Conformer-transducer) generates an output label sequence as it traverses the input sequence. It is

transducer streaming mode global normalisation loss function word error rate

发现论文，激发创造

模块化框架下的流式语音识别全局标准化

介绍了全局归一化自回归转换器 (GNAT) 解决了流式语音识别中的标签偏见问题。我们的解决方案采用可计算的分母来实现序列级别归一化。通过理论和实证结果，我们展示了通过切换到全局归一化模型，可以极大地减少流式和非流式语音识别模型之间的词误差率差距（对于 Librispeech 数据集，减少了超过 50%）。此模型在一个模块化框架中开发，包含所有普通的神经语音识别模型。这个框架的可模块化性使得可以对建模选择进行控制比较，创造新的模型。

May, 2022

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

用于流式语音识别的卷积增强循环神经网络转录器 (ConvRNN-T)

本文主要介绍了一种新的流式自动语音识别模型 - 基于卷积增强循环神经网络传导器 (ConvRNN-T)，其中，作者通过引入局部和全局上下文 CNN 编码器作为卷积前端来增强 LSTM 的 RNN-T，并展示了其性能优于 RNN-T，Conformer 和 ContextNet 等现有的技术。此外，ConvRNN-T 具有更低的计算复杂度和更优的性能表现，是一种有前景的流式自动语音识别技术。

Sep, 2022

Conv-Transformer 转换器：低延迟、低帧率、可流式传输的端到端语音识别

本研究设计了 Conv-Transformer Transducer 架构，在 LibriSpeech 数据集上实现了较强的流式语音识别性能，该架构适用于流式 ASR，且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统，拥有更小的前向窗口、更少的参数和更低的帧率。

Aug, 2020

使用 RNN-Transducer 探索流式端到端语音识别的架构、数据和单位

本研究使用循环神经网络传输器（RNN-T）来训练端到端语音识别模型，并探索了不同的模型架构。通过使用字元素（wordpieces），模型的性能进一步得到了提高，最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。

Jan, 2018

语音识别神经转换器的高效训练

本文提出一个高效的 3 阶段渐进训练管道，能够快速利用有限的计算资源训练出接近最新成果性能的转录模型，证明了每个阶段的有效性，并在 Librispeech 和 Switchboard 训练语料库上进行了实验证明。

Apr, 2022

开发用于大规模数据集实时流式转换器转导器的语音识别系统

本文介绍了一种基于 Transform-XL 的可流式 Transformer-Transducer 模型的应用，用于语音识别中的低延迟且快速编码，比混合模型、RNN-Transducer 和流式 Transformer - 基于注意力的编码器 - 解码器模型具有更好的性能。

Oct, 2020

流式端到端语音识别序列转导器的最小延迟训练

本文提出了一种新的训练方法，通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡，实验结果表明，所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms，并在误识率降低了 0.7% 的同时，优于传统的对齐限制训练和快速发射方法。

Nov, 2022

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

Transformer-Transducer: 自注意力端到端语音识别

本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Oct, 2019