CVPRNov, 2022

InternImage: 使用可变形卷积探索大型视觉基础模型

TL;DR本研究提出基于卷积神经网络的 InternImage 模型,采用可变形卷积作为核心操作,实现了大规模参数和训练数据的增益,具有满足检测和分割等下游任务所需的大有效感受野,以及由输入和任务信息条件约束的自适应空间聚合,有效降低了传统 CNN 的归纳偏差,使其能够像 ViTs 一样从大量数据中学习更强更稳健的模式。在挑战性基准测试中,InternImage-H 在 COCO test-dev 实现了新的记录性能,mAP 达到 65.4,ADE20K 的 mIoU 达到 62.9,超越了当前领先的 CNN 和 ViTs 模型。