Squeezeformer：自动语音识别的高效 Transformer

Jun, 2022

Squeezeformer：自动语音识别的高效 Transformer

Squeezeformer: An Efficient Transformer for Automatic Speech Recognition

Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam...

TL;DR通过重新审视 Conformer 架构的设计选择，我们提出了 Squeezeformer 模型，展示其在同一训练方案下一致优于当前最先进的 ASR 模型，取得了 7.5％，6.5％和 6.0％的字错率（WER）结果，比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1％，1.4％和 0.6％。

Abstract

The recently proposed conformer model has become the de facto backbone model for various downstream speech tasks based on its hybrid attention-convolution architecture that captures both local and global features. However, through a series of systematic studies, we find that the

conformer squeezeformer asr models multi-head attention modules word-error-rate

发现论文，激发创造

Zipformer：一种更快、更好的自动语音识别编码器

我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer，它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作，重新组织块结构以提高效率，使用 BiasNorm 的修改形式来保留一些长度信息，新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish，通过一个名为 ScaledAdam 的优化器进行更新尺度的调整，相对变化保持大致相同，并明确学习参数尺度，在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验，证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。

Oct, 2023

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

语音识别的稀疏深度 Conformer 模型

本研究提出了一种基于 Conformer 的深度稀疏自注意力机制的自动语音识别模型，能有效提高长序列数据的表达能力和提高识别率。

Sep, 2022

HyperConformer：用于高效语音识别的多头超级混合器

本文介绍了一种名为 HyperConformer 的语音识别结构，它通过引入高效的 HyperMixer 机制，实现了对于长输入序列较为经济的全局交互建模，并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。

May, 2023

电子分支形变器与传统形变器在语音识别、翻译和理解任务中的对比研究

本文比较 E-Branchformer 和 Conformer 两种编码器在语音处理方面的性能，并表明 E-Branchformer 在大多数评估数据集上表现比 Conformer 更好，并且在训练期间更加稳定。

May, 2023

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

ESPnet 工具包的最新进展: Conformer 技术的推动

本文介绍了 ESPnet 工具包中的最新成果，包括基于 Conformer 的新型架构的应用于自动语音识别、语音翻译、语音分离和文本转语音等各种任务的实验结果，具备高性能且与现有的 Transformer 模型相竞争性或超越其成果；同时我们通过公开的语料库和预训练模型减轻了之前模型搭建过程中的资源负担。

Oct, 2020

使用块增强变压器提升普通话语音识别

本文提出了一种基于 Conformer 的 Block-augmented Transformer 模型来更好地利用编码器和解码器中各块的互补信息，这个模型在 AISHELL-1 语音识别任务中性能优于当前的最新模型 Conformer，并且在测试集上取得了 4.29% CER（不使用语言模型）和 4.05% CER（使用外部语言模型）。

Jul, 2022

FusionFormer：在 Transformer 中融合操作以实现高效流式语音识别

通过将层标准化技术替换为批标准化技术并且对 Conformer 架构的激活函数进行简化和替换（用 ReLU），我们提出了一个名为 FusionFormer 的模型，它的推理速度比标准的 Conformer 模型快约 10%，而且效果相当。

Oct, 2022