高效基于 Conformer 的端到端语音识别关键帧机制
本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明,该架构相比于 Conformer 速度更快,性能更好,且包含更少的参数。
Aug, 2021
通过 Skip-and-Recover Conformer 架构,本研究提出了一种动态且不均匀地压缩序列输入长度的方法,实验表明该模型在 Aishell-1 数据集上将输入序列长度减少 31 倍,在 Librispeech 语料库上减少 22 倍,并能达到更好的识别准确率和更快的推理速度。
Mar, 2024
本研究提出了一种新的” 连接时序总结 “(CTS) 方法,它可以减少 Conformer 模型中 attention decoder 所需的 frames 数,提高解码效率,并且它能够在不损失 ASR 准确性的情况下降低解码预算,提高识别准确度.
Apr, 2022
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。
Feb, 2021
该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络(DPCFCS-Net), 在 VCTK+DEMAND 数据集上表现优于现有技术,其改进的密集连接块和二维注意力模块易于集成到现有网络中,具有更高的适应性。
Jun, 2023
本文提出了一种优化的 conformer 模型,通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式,优化内部状态数量,降低推理延迟。通过级联编码器,我们发现这些优化可以将延迟降低 6.8 倍,并保持合适的精度,可以作为独立的编码器或高性能 ASR 流水线的第一部分。
Mar, 2023
我们提出了一种基于 FastConformer 架构的高效准确的流式语音识别模型,在编码器中通过约束前向和后向上下文,并引入了激活缓存机制来实现非自回归编码器在推断过程中的自回归操作。我们的模型消除了许多流式模型中常见的训练与推断准确性差异,并能与多种解码器配置一起工作。此外,我们还引入了一种混合 CTC/RNNT 架构,利用共享编码器与 CTC 和 RNNT 解码器结合,以提高准确性并节省计算资源。我们在 LibriSpeech 数据集和多领域大规模数据集上评估了我们的模型,并证明它相对于传统的缓冲流式模型基线具有更高的准确性、更低的延迟和推断时间。同时,我们的实验证明使用多种延迟训练模型可以获得比单一延迟模型更高的准确性,并能够通过一个模型支持多种延迟。我们的实验还表明,相比于单一解码器模型,混合架构不仅加快了 CTC 解码器的收敛速度,而且提高了流式模型的准确性。
Dec, 2023
本论文提出了一种名为 Conformer 的混合网络结构,利用卷积操作和 self-attention 机制进行增强表示学习,可最大程度地保留局部特征和全局表示,并通过实验证明,在可比较的参数复杂性下,Conformer 在 ImageNet 上优于 visual transformer(DeiT-B)2.3%,在 MSCOCO 上,相对于 ResNet-101,在目标检测和实例分割方面都优于它,具有成为通用主干网络的巨大潜力。
May, 2021