遮罩图像建模:一项综述
本文提出了SimMIM框架, 通过探究每一个组件的简单设计方案, 发现简单设计方案表现强劲, 并在ImageNet-1K数据集上, 使用ViT-B预训练和微调达到了83.8%的top-1精度, 并使用此方法促进3B模型(SwinV2-G)的训练, 在四个代表性的视觉基准数据集中实现了最新的技术成果。
Nov, 2021
本研究提出一种基于模型对模糊图像的建模方法,即上下文自编码器(CAE),用于自我监督的表示预训练,其中引入了一种对齐约束,以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的MIM方法,我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现,我们证明了我们的CAE的有效性。
Feb, 2022
本文研究了遮蔽图像建模技术在医学三维图像分析中的应用,发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度,使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务,轻量级的解码器或投影头设计能够加快训练速度并降低成本,而MIM方法在不同的图像分辨率和标签数据比例下都具有良好的效果。
Apr, 2022
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现MIM可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文提出了一种基于蒙版图像建模的框架,即A^2MIM,可用于Transformers和CNNs网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
本文提出了一种名为MimCo的新型、灵活的预训练框架,通过两阶段的预训练,将MIM和对比学习相结合,提高了MIM预训练表示的线性可分性,取得了优越的性能。
Sep, 2022
本文旨在通过在使用Coyo-700M数据集进行实验,探究遮蔽图像建模(MIM)方法在不同大小和模型的情况下,进行下游任务的表现变化,并发现了MIM在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量,以及大多数情况下,MIM预训练是数据不可知的。这些发现为未来的MIM研究提供了有价值的见解。
May, 2023
通过将MIM集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于Transformer的解码器,并引入一个基于遮蔽图像输入的MIM任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
近年来,自监督学习因其出色的表示学习能力和对标注数据低依赖性而备受关注。文中综合评述了遮蔽建模框架及其方法学,并详细介绍了遮蔽建模中的技术细节,包括各种遮蔽策略、恢复目标、网络架构等。该框架在计算机视觉、自然语言处理和其他领域表现出了出色的性能,并探讨了不同领域中遮蔽建模方法的共性和差异。最后,讨论了当前技术的局限性并指出了几个可能的研究方向。
Dec, 2023
本研究解决了传统掩蔽图像建模方法通过随机掩蔽策略所带来的资源消耗和训练效率低下的问题。提出了一种新的对称掩蔽策略,能够更有效地捕捉模型的全局和局部特征,进而引入SymMIM训练流程。在ImageNet数据集上,SymMIM实现了85.9%的最新状态准确率,并在下游任务中超越了先前的最佳结果。
Aug, 2024