架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本论文提出了一种新颖的防御方法 MIMIR,通过在预训练阶段利用 Masked Image Modeling 构建不同的对抗训练方法,从而提高 Vision Transformers 的鲁棒性和性能。实验证明,相较于基线模型,MIMIR 在 CIFAR-10 和 ImageNet-1K 上的(自然和对抗)准确率平均提高了 4.19%和 5.52%。
Dec, 2023
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
本文提出了 MIMDet 检测器,采用预处理的 ViT 编码器作为检测器基础,通过嵌入卷积中间特征构建多尺度表示,最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP,并且收敛速度更快。
Apr, 2022
利用自监督学习方法在中等规模的图像数据集上,对视觉 Transformer 进行预训练,并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异,实现更好的表征学习。
Jan, 2024
基于动态令牌变形的掩码图像建模(DTM)是一种有前景的自监督学习方法,可应用于不同的 SSL 框架,在不引入额外的训练成本的情况下有效改进表现,并经过多个实验证明其在各种下游任务上的可迁移性。
Dec, 2023
本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制,并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中,我们减少了基于像素的遮罩图像建模的建模能力浪费,提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知,我们是首次系统研究多级特征融合在类似标准 Vision Transformer(ViT)的各向同性架构中的应用。值得注意的是,当应用于较小的模型(例如 ViT-S)时,我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。
Aug, 2023
本文提出了 SimMIM 框架,通过探究每一个组件的简单设计方案,发现简单设计方案表现强劲,并在 ImageNet-1K 数据集上,使用 ViT-B 预训练和微调达到了 83.8%的 top-1 精度,并使用此方法促进 3B 模型(SwinV2-G)的训练,在四个代表性的视觉基准数据集中实现了最新的技术成果。
Nov, 2021