Mobile-Former:连接 MobileNet 和 Transformer
本文介绍了一种高效的纯 Transformer 设计方法 EfficientFormer,用于实现与 MobileNet 相当的性能且具有极低的推理延迟,它通过解决 ViT 中的存储器冗余问题来达到这一目的。
Jun, 2022
Dynamic Mobile-Former 是一种集成了轻量级注意力机制和增强动态卷积优势的网络模型,通过 Transformer 和 MobileNet 的双向集成实现对全局和局部特征的处理,在图像分类、目标检测和实例分割等各个视觉任务上取得了高效且卓越的性能。
Apr, 2023
本研究提出了一种名为 TopFormer 的移动友好的架构,该架构以不同尺度的 Token 作为输入,产生具有尺度感知的语义特征,并将这些特征注入到相应的 Token 中以增强表示能力,该方法在多个语义分割数据集上明显优于 CNN 和 ViT 网络,并在 ARM 移动设备上以较低的延迟实现了比 MobileNetV3 更高的平均交并比精度,同时,TopFormer 的微型版本可以在 ARM 移动设备上实现实时推断。
Apr, 2022
MobileViT 使用卷积神经网络和视觉 transformer 结合,提出了 MobileViTv3-block 来处理模型缩放以及简化学习任务问题,其在 ImageNet-1k、ADE20K、COCO 和 PascalVOC2012 数据集上表现更优。
Sep, 2022
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021
本文提出了一种名为 AutoFormer 的新一代架构搜索框架,该框架是针对视觉分类和检测任务中 transformer 网络设计的,通过优化 supernet 让数千个子网络获得很好的训练,最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能,且具有良好的迁移性能和蒸馏实验性能。
Jul, 2021
我们提出了一种新的变换器解码器 U-MixFormer,基于 U-Net 结构设计的,用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询,我们的方法与以前的变换器方法有所不同。此外,我们创新地混合来自各个编码器和解码器阶段的分层特征图,形成一个统一的键和值表示,从而产生我们独特的混合注意模块。大量实验证明,U-MixFormer 在各种配置上表现出色,并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。
Dec, 2023
本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式,取得了较高的图像分类准确率,同时也提出了新的激活函数 StarReLU。
Oct, 2022
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022
本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性,该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性,并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。
Mar, 2022