HyperConformer：用于高效语音识别的多头超级混合器

MMMay, 2023

HyperConformer：用于高效语音识别的多头超级混合器

HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition

Florian Mai, Juan Zuluaga-Gomez, Titouan Parcollet, Petr Motlicek

TL;DR本文介绍了一种名为 HyperConformer 的语音识别结构，它通过引入高效的 HyperMixer 机制，实现了对于长输入序列较为经济的全局交互建模，并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。

Abstract

State-of-the-art asr systems have achieved promising results by modeling local and global interactions separately. While the former can be computed efficiently, global interactions are usually modeled via attention mechanisms, which are expensive for long input sequences. Here, we addr

asr hyperconformer speech recognition neural parameters training data

发现论文，激发创造

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

Squeezeformer：自动语音识别的高效 Transformer

通过重新审视 Conformer 架构的设计选择，我们提出了 Squeezeformer 模型，展示其在同一训练方案下一致优于当前最先进的 ASR 模型，取得了 7.5％，6.5％和 6.0％的字错率（WER）结果，比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1％，1.4％和 0.6％。

Jun, 2022

语音识别的稀疏深度 Conformer 模型

本研究提出了一种基于 Conformer 的深度稀疏自注意力机制的自动语音识别模型，能有效提高长序列数据的表达能力和提高识别率。

Sep, 2022

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

Branchformer: 并行 MLP-Attention 结构用于语音识别和理解中的局部和全局上下文抓取

本文章提出一种基于自注意力机制和 MLP 模块的可定制语音转录模型 Branchformer，其可以同时提取全局和局部依赖关系，并且在多项基准测试上均胜过了 Transformer 和 cgMLP，与 Conformer 的表现相当。此外，该模型具有双分支结构，可以降低计算复杂度。

Jul, 2022

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

Zipformer：一种更快、更好的自动语音识别编码器

我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer，它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作，重新组织块结构以提高效率，使用 BiasNorm 的修改形式来保留一些长度信息，新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish，通过一个名为 ScaledAdam 的优化器进行更新尺度的调整，相对变化保持大致相同，并明确学习参数尺度，在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验，证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。

Oct, 2023

实用 Conformer：优化 Conformer 的大小，速度和 FLOPs，用于设备和云 ASR

本文提出了一种优化的 conformer 模型，通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式，优化内部状态数量，降低推理延迟。通过级联编码器，我们发现这些优化可以将延迟降低 6.8 倍，并保持合适的精度，可以作为独立的编码器或高性能 ASR 流水线的第一部分。

Mar, 2023

增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络，用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能，因为它允许系统循环地存储和检索更多信息。实验结果表明，我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。

Sep, 2023

使用 Conformer 进行连续语音分离

本文研究使用 Transformer 和 Conformer 代替递归神经网络在语音分离领域中来提取单个说话者的混合语音，以连续语音分离为主要研究方向，通过在 LibriCSS 数据集上的实验，证明所提模型在语音分离任务中具有最优表现。

Aug, 2020