动态 Mobile-Former:在核空间中利用注意力和残差连接加强动态卷积
本文提出了一种动态多级注意力机制 (DMA),它通过多个卷积核大小捕捉输入图像的不同模式,并通过门控机制实现输入自适应权重,然后提出了一种名为 DMFormer 的有效骨干网络,该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明,DMFormer 具有先进的性能,优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。
Sep, 2022
Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计,其具有较低的计算成本和更强的表示能力,可以用于图像分类和对象检测,并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR
Aug, 2021
提出一种名为 Dynamic Convolution 的新设计,基于卷积核的注意力动态地聚合多个并行卷积核,从而增加模型复杂度,提高卷积神经网络的表示能力,有效提高 MobileNetV3-Small 模型在 ImageNet 分类任务上的精度。
Dec, 2019
本文提出了 ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目 3D 人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了 SOTA 水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
提出了一种新的动态滤波器 Token-mixer,与 MHSA 类似,但计算复杂度较低,并在图像识别中达到了与卷积和 MHSA 混合架构相近的精度水平,对于处理高分辨率图像的吞吐量和内存效率优于 CAFormer。
Mar, 2023
本文研究了如何提高卷积神经网络的效率,提出了一种基于动态卷积方法的新型卷积操作,在多种 CNN 结构上进行了测试,并表明该方法可以在减少计算开销的同时保持性能,从而达到了更高的效率。
Apr, 2020
本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。
Dec, 2021
提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节,通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积,为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet,这是一个新颖的混合 CNN-Transformer 视觉主干网络,在 ImageNet-1K 图像分类任务中,TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3%,同时仅需要不到一半的计算成本,此外,TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色,分别达到 83.8%和 84.6%的 top-1 准确率。此外,提议的网络架构在各种密集预测任务中表现出强大的泛化能力,优于其他最先进网络,同时计算成本较低。
Oct, 2023
本文提出一种利用卷积神经网络中的基于注意力的动态卷积核来提高模型分辨率能力的方法,将模型参数适应于特征条件,通过通道注意力和多层特征聚合进一步提取全局语音特征,从而提高特征表示效果。实验结果表明,该方法在使用较少数据的情况下取得了良好的识别效果。
Nov, 2022
通过构建 CNN 式 Transformer(ConvFormer)来提升更好的注意力收敛,从而获得更好的分割性能。
Sep, 2023