基于缓存推断的流式自动语音识别中的有状态快速 Conformer

Dec, 2023

基于缓存推断的流式自动语音识别中的有状态快速 Conformer

Stateful FastConformer with Cache-based Inference for Streaming Automatic Speech Recognition

Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg

TL;DR我们提出了一种基于 FastConformer 架构的高效准确的流式语音识别模型，在编码器中通过约束前向和后向上下文，并引入了激活缓存机制来实现非自回归编码器在推断过程中的自回归操作。我们的模型消除了许多流式模型中常见的训练与推断准确性差异，并能与多种解码器配置一起工作。此外，我们还引入了一种混合 CTC/RNNT 架构，利用共享编码器与 CTC 和 RNNT 解码器结合，以提高准确性并节省计算资源。我们在 LibriSpeech 数据集和多领域大规模数据集上评估了我们的模型，并证明它相对于传统的缓冲流式模型基线具有更高的准确性、更低的延迟和推断时间。同时，我们的实验证明使用多种延迟训练模型可以获得比单一延迟模型更高的准确性，并能够通过一个模型支持多种延迟。我们的实验还表明，相比于单一解码器模型，混合架构不仅加快了 CTC 解码器的收敛速度，而且提高了流式模型的准确性。

Abstract

In this paper, we propose an efficient and accurate streaming speech recognition model based on the fastconformer architecture. We adapted the fastconformer architecture for streaming applications through: (1) co

streaming speech recognition fastconformer architecture encoder-decoder models ctc/rnnt architecture latency optimization

发现论文，激发创造

语音识别统一流式和非流式两遍端到端模型

本文提出了一种新颖的两步方法，用于将流式和非流式端到端（E2E）语音识别统一到单个模型中，该模型采用混合 CTC /attention 架构，在编码器的 conformer 层进行修改，并且在推理时，CTC 解码器以流式方式生成 n 个最佳假设，然后通过注意力解码器进行重评分以得到最终结果，并且在 AISHELL-1 测试集上，基于提出的方法的统一模型相对于标准的非流式 transformer，实现了 5.60％的相对字符错误率（CER）降低，在流式 ASR 系统中实现了 640ms 的延迟。

Dec, 2020

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

改进的 Mask-CTC 用于非自回归端到端 ASR

为了实现自动语音识别的实时应用，并降低计算资源需求，本文结合 Conformer 结构和辅助目标预测方法，提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上，同时使推理速度不下降，结果超越标准 CTC 模型。

Oct, 2020

将连接时序汇总添加到 Conformer 中，以提高其解码效率，用于语音识别

本研究提出了一种新的” 连接时序总结 “(CTS) 方法，它可以减少 Conformer 模型中 attention decoder 所需的 frames 数，提高解码效率，并且它能够在不损失 ASR 准确性的情况下降低解码预算，提高识别准确度.

Apr, 2022

关于 RNN-T 语音识别模型中预测网络结构的研究

本文比较了针对单调和原始 RNN-T 模型的几种预测网络结构，并在 Librispeech 和内部医疗对话数据集上报告了结果。其中提出了一种新的预测网络架构 N-Concat，表现优于其他。相比 LSTM 基线，我们获得了高达 4.1% 的相对 WER 改进，同时将预测网络参数减少了近一个数量级（8.4 倍）。

Jun, 2022

流式并行传感器束搜索算法及快慢级联编码器

该研究提出了在流式自动语音识别中应用串联有因果和非因果编码器的方法，并使用两个有不同输入上下文大小和以不同的音频间隔产生输出的流式非因果编码器进行改进；同时提出了一种新的并行时间同步波束搜索算法。研究结果表明，在公共数据集 Librispeech 和内部数据集上，该算法在稍微增加音节延迟的情况下，实现 WER 降低 20％左右，并探索了分布式处理和共享参数降低内存占用的技术，以实现低计算成本和低内存占用的边缘设备上的低延迟处理。

Mar, 2022

基于 Conformer 的长篇语音流式语言识别的注意力时序池化

本文提出了一种基于 conformer 层的新型语言识别系统，提出一种注意力时序池化机制，可以以递归形式携带长音频的信息，从而可以进行流式推理。此外，本文还研究了两种领域适应方法，以允许适应现有的语言识别模型。我们的实验表明，本文提出的模型拓扑结构明显优于 LSTM 和 transformer，而且注意力时序池化和领域适应可以提高模型的准确性。

Feb, 2022

实用 Conformer：优化 Conformer 的大小，速度和 FLOPs，用于设备和云 ASR

本文提出了一种优化的 conformer 模型，通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式，优化内部状态数量，降低推理延迟。通过级联编码器，我们发现这些优化可以将延迟降低 6.8 倍，并保持合适的精度，可以作为独立的编码器或高性能 ASR 流水线的第一部分。

Mar, 2023

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

本文提出一种帧级模型，采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性，通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充，以达到更好的性能。实验表明，该模型在 LibriSpeech 数据集上具有较高的性能。

Mar, 2022