高效基于 Conformer 的端到端语音识别关键帧机制

Oct, 2023

高效基于 Conformer 的端到端语音识别关键帧机制

Key Frame Mechanism For Efficient Conformer Based End-to-end Speech Recognition

Peng Fan, Changhao Shan, Jianwei Zhang, Sining Sun, Qing Yang

TL;DR我们提出了一种使用关键帧的自注意力机制和下采样机制的方法，能够降低 Conformer 模型中自注意力机制的计算复杂度，并取得与基准模型相当或更高的性能。同时，我们的方法在模型训练和推断过程中，可以丢弃超过 60% 的无用帧，从而显著加速推断速度。

Abstract

Recently, conformer as a backbone network for end-to-end automatic speech recognition achieved state-of-the-art performance. The conformer block leverages a →

conformer self-attention mechanism ctc key frame-based self-attention key frame-based downsampling

发现论文，激发创造

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

Skipformer: 一种高效语音识别的跳过与恢复策略

通过 Skip-and-Recover Conformer 架构，本研究提出了一种动态且不均匀地压缩序列输入长度的方法，实验表明该模型在 Aishell-1 数据集上将输入序列长度减少 31 倍，在 Librispeech 语料库上减少 22 倍，并能达到更好的识别准确率和更快的推理速度。

Mar, 2024

将连接时序汇总添加到 Conformer 中，以提高其解码效率，用于语音识别

本研究提出了一种新的” 连接时序总结 “(CTS) 方法，它可以减少 Conformer 模型中 attention decoder 所需的 frames 数，提高解码效率，并且它能够在不损失 ASR 准确性的情况下降低解码预算，提高识别准确度.

Apr, 2022

Squeezeformer：自动语音识别的高效 Transformer

通过重新审视 Conformer 架构的设计选择，我们提出了 Squeezeformer 模型，展示其在同一训练方案下一致优于当前最先进的 ASR 模型，取得了 7.5％，6.5％和 6.0％的字错率（WER）结果，比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1％，1.4％和 0.6％。

Jun, 2022

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

语音增强中高效编码器 - 解码器和双通道 Conformer 的综合特征学习

该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络（DPCFCS-Net）, 在 VCTK+DEMAND 数据集上表现优于现有技术，其改进的密集连接块和二维注意力模块易于集成到现有网络中，具有更高的适应性。

Jun, 2023

实用 Conformer：优化 Conformer 的大小，速度和 FLOPs，用于设备和云 ASR

本文提出了一种优化的 conformer 模型，通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式，优化内部状态数量，降低推理延迟。通过级联编码器，我们发现这些优化可以将延迟降低 6.8 倍，并保持合适的精度，可以作为独立的编码器或高性能 ASR 流水线的第一部分。

Mar, 2023

语音识别的稀疏深度 Conformer 模型

本研究提出了一种基于 Conformer 的深度稀疏自注意力机制的自动语音识别模型，能有效提高长序列数据的表达能力和提高识别率。

Sep, 2022

基于缓存推断的流式自动语音识别中的有状态快速 Conformer

我们提出了一种基于 FastConformer 架构的高效准确的流式语音识别模型，在编码器中通过约束前向和后向上下文，并引入了激活缓存机制来实现非自回归编码器在推断过程中的自回归操作。我们的模型消除了许多流式模型中常见的训练与推断准确性差异，并能与多种解码器配置一起工作。此外，我们还引入了一种混合 CTC/RNNT 架构，利用共享编码器与 CTC 和 RNNT 解码器结合，以提高准确性并节省计算资源。我们在 LibriSpeech 数据集和多领域大规模数据集上评估了我们的模型，并证明它相对于传统的缓冲流式模型基线具有更高的准确性、更低的延迟和推断时间。同时，我们的实验证明使用多种延迟训练模型可以获得比单一延迟模型更高的准确性，并能够通过一个模型支持多种延迟。我们的实验还表明，相比于单一解码器模型，混合架构不仅加快了 CTC 解码器的收敛速度，而且提高了流式模型的准确性。

Dec, 2023

Conformer：局部特征耦合全局表示用于视觉识别

本论文提出了一种名为 Conformer 的混合网络结构，利用卷积操作和 self-attention 机制进行增强表示学习，可最大程度地保留局部特征和全局表示，并通过实验证明，在可比较的参数复杂性下，Conformer 在 ImageNet 上优于 visual transformer（DeiT-B）2.3％，在 MSCOCO 上，相对于 ResNet-101，在目标检测和实例分割方面都优于它，具有成为通用主干网络的巨大潜力。

May, 2021