InternImage: 使用可变形卷积探索大型视觉基础模型

CVPRNov, 2022

InternImage: 使用可变形卷积探索大型视觉基础模型

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li...

TL;DR本研究提出基于卷积神经网络的 InternImage 模型，采用可变形卷积作为核心操作，实现了大规模参数和训练数据的增益，具有满足检测和分割等下游任务所需的大有效感受野，以及由输入和任务信息条件约束的自适应空间聚合，有效降低了传统 CNN 的归纳偏差，使其能够像 ViTs 一样从大量数据中学习更强更稳健的模式。在挑战性基准测试中，InternImage-H 在 COCO test-dev 实现了新的记录性能，mAP 达到 65.4，ADE20K 的 mIoU 达到 62.9，超越了当前领先的 CNN 和 ViTs 模型。

Abstract

Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new lar

convolutional neural networks deformable convolution large-scale models receptive field adaptive spatial aggregation

发现论文，激发创造

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021

ViT-CoMer: 具有卷积多尺度特征交互的视觉 Transformer 用于密集预测

ViT-CoMer 是一种纯粹、无需预训练并具有特征增强的 ViT 骨干网络，其通过引入卷积多尺度特征相互作用和 CNN-Transformer 双向融合交互模块，在处理密集预测任务时具有较优的性能。

Mar, 2024

HIRI-ViT：高分辨率输入下的视觉 Transformer 尺度扩展

一种基于高分辨率输入的新型混合主干网络 (HIRI-ViT)，通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建，一个直接以高分辨率特征为输入，但使用更少的卷积操作，另一个首先进行下采样，然后在低分辨率特征上使用更多的卷积操作，通过对 ImageNet、COCO 和 ADE20K 数据集的实验表明了 HIRI-ViT 的优越性。

Mar, 2024

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

用仅 2040 张图片训练视觉 Transformer

本篇研究介绍如何以有限数据训练 Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个 ViT 基础下从头开始训练 7 个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。

Jan, 2022

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

纹理分析中视觉 Transformer 特征提取的比较调查

该研究采用 21 个不同的预训练 Vision Transformer 架构，评估其在纹理识别中的性能，并与卷积神经网络和手工设计模型进行比较。结果显示，Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型，尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中，ViT-B with DINO pre-training，BeiTv2，Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外，尽管 GFLOPs 和参数数量较高，ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短，从而实现了更高的效率。

Jun, 2024

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

Next-ViT：面向现实工业场景的下一代视觉 Transformer

本文提出 Next-ViT 模型，使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息，以加速多种视觉任务的表现，同时保持与最先进的 CNN-Transformer 混合框架的可比性，可用于实际工业场景中的高效部署。

Jul, 2022

预训练的 ViT 模型在医疗图像中得到了多用途的表示

本研究探讨了视觉 Transformer 在医学图像分类中的优劣，并发现使用预训练模型时，视觉 Transformer 可以与卷积神经网络媲美，成为 CNN 的一种可行替代方法。

Mar, 2023