Apr, 2022

使用遮蔽图像建模发挥纯 Transformer 视觉模型在目标检测中的作用

TL;DR本文提出了 MIMDet 检测器,采用预处理的 ViT 编码器作为检测器基础,通过嵌入卷积中间特征构建多尺度表示,最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP,并且收敛速度更快。