Conformer：局部特征耦合全局表示用于视觉识别

ICCVMay, 2021

Conformer：局部特征耦合全局表示用于视觉识别

Conformer: Local Features Coupling Global Representations for Visual Recognition

Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang...

TL;DR本论文提出了一种名为 Conformer 的混合网络结构，利用卷积操作和 self-attention 机制进行增强表示学习，可最大程度地保留局部特征和全局表示，并通过实验证明，在可比较的参数复杂性下，Conformer 在 ImageNet 上优于 visual transformer（DeiT-B）2.3％，在 MSCOCO 上，相对于 ResNet-101，在目标检测和实例分割方面都优于它，具有成为通用主干网络的巨大潜力。

Abstract

Within convolutional neural network (CNN), the convolution operations are good at extracting local features but experience difficulty to capture global representations. Within visual transformer, the cascaded sel

convolutional neural network self-attention mechanisms representation learning global representations local features

发现论文，激发创造

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

LGFCTR: 图像匹配的局部和全局特征卷积变换器

通过引入卷积变换器，本研究提出了一种捕捉图像匹配的局部环境和全局结构的新型图像匹配方法，该方法在各种基准测试中取得了卓越的性能。

Nov, 2023

Branchformer: 并行 MLP-Attention 结构用于语音识别和理解中的局部和全局上下文抓取

本文章提出一种基于自注意力机制和 MLP 模块的可定制语音转录模型 Branchformer，其可以同时提取全局和局部依赖关系，并且在多项基准测试上均胜过了 Transformer 和 cgMLP，与 Conformer 的表现相当。此外，该模型具有双分支结构，可以降低计算复杂度。

Jul, 2022

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

语音识别的稀疏深度 Conformer 模型

本研究提出了一种基于 Conformer 的深度稀疏自注意力机制的自动语音识别模型，能有效提高长序列数据的表达能力和提高识别率。

Sep, 2022

ConvFormer: 提升医学图像分割的即插即用卷积神经网络模型

通过构建 CNN 式 Transformer（ConvFormer）来提升更好的注意力收敛，从而获得更好的分割性能。

Sep, 2023

视觉语音识别只需拟态

提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟，更高的内存效率和更好的 WER 性能，从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。

Feb, 2023

UniFormer：统一卷积和自注意力机制用于视觉识别

提出了一种新方法 UniFormer，能够将 CNN 和 ViT 的优点融合到一个新的强大的支持各种视觉任务，包括图像分类、目标检测、语义分割和姿态估计等的 Transformer 模型中，并在不需要额外训练数据的情况下，达到了 ImageNet-1K 分类的 86.3% 的 top-1 准确率，以及在一系列任务中取得了最先进的性能。

Jan, 2022