动态 Mobile-Former：在核空间中利用注意力和残差连接加强动态卷积

Apr, 2023

动态 Mobile-Former：在核空间中利用注意力和残差连接加强动态卷积

Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention and Residual Connection in Kernel Space

Seokju Yun, Youngmin Ro

TL;DRDynamic Mobile-Former 是一种集成了轻量级注意力机制和增强动态卷积优势的网络模型，通过 Transformer 和 MobileNet 的双向集成实现对全局和局部特征的处理，在图像分类、目标检测和实例分割等各个视觉任务上取得了高效且卓越的性能。

Abstract

We introduce dynamic mobile-former(DMF), maximizes the capabilities of dynamic convolution by harmonizing it with efficient operators.Our Dynamic MobileFormer effectively utilizes the advantages of Dynamic

dynamic mobile-former dynamic convolution mobilenet transformer attention

发现论文，激发创造

DMFormer：缩小 CNN 和 Vision Transformer 之间的差距

本文提出了一种动态多级注意力机制 (DMA)，它通过多个卷积核大小捕捉输入图像的不同模式，并通过门控机制实现输入自适应权重，然后提出了一种名为 DMFormer 的有效骨干网络，该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明，DMFormer 具有先进的性能，优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。

Sep, 2022

Mobile-Former：连接 MobileNet 和 Transformer

Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计，其具有较低的计算成本和更强的表示能力，可以用于图像分类和对象检测，并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR

Aug, 2021

动态卷积：卷积核的注意力机制

提出一种名为 Dynamic Convolution 的新设计，基于卷积核的注意力动态地聚合多个并行卷积核，从而增加模型复杂度，提高卷积神经网络的表示能力，有效提高 MobileNetV3-Small 模型在 ImageNet 分类任务上的精度。

Dec, 2019

ConvFormer: 利用动态多头卷积注意力实现 Transformer 模型的参数减少，用于 3D 人体姿势估计

本文提出了 ConvFormer：一种新型的卷积变压器，新增了一种动态的多头卷积自注意机制用于单目 3D 人体姿势估计。通过对人体各关节点之间的关系进行建模，利用时间关节特征的新概念进行完全的时间信息融合，成功地在三个基准数据集上实现了 SOTA 水平的结果，相对于以前的变压器模型取得了显著的参数降低。

Apr, 2023

基于 FFT 的视觉动态令牌混合器

提出了一种新的动态滤波器 Token-mixer，与 MHSA 类似，但计算复杂度较低，并在图像识别中达到了与卷积和 MHSA 混合架构相近的精度水平，对于处理高分辨率图像的吞吐量和内存效率优于 CAFormer。

Mar, 2023

DyNet: 动态卷积加速卷积神经网络

本文研究了如何提高卷积神经网络的效率，提出了一种基于动态卷积方法的新型卷积操作，在多种 CNN 结构上进行了测试，并表明该方法可以在减少计算开销的同时保持性能，从而达到了更高的效率。

Apr, 2020

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节，通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积，为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet，这是一个新颖的混合 CNN-Transformer 视觉主干网络，在 ImageNet-1K 图像分类任务中，TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3％，同时仅需要不到一半的计算成本，此外，TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色，分别达到 83.8％和 84.6％的 top-1 准确率。此外，提议的网络架构在各种密集预测任务中表现出强大的泛化能力，优于其他最先进网络，同时计算成本较低。

Oct, 2023

低资源说话者验证的动态核和通道注意力

本文提出一种利用卷积神经网络中的基于注意力的动态卷积核来提高模型分辨率能力的方法，将模型参数适应于特征条件，通过通道注意力和多层特征聚合进一步提取全局语音特征，从而提高特征表示效果。实验结果表明，该方法在使用较少数据的情况下取得了良好的识别效果。

Nov, 2022

ConvFormer: 提升医学图像分割的即插即用卷积神经网络模型

通过构建 CNN 式 Transformer（ConvFormer）来提升更好的注意力收敛，从而获得更好的分割性能。

Sep, 2023