掩码图像建模作为一种跨眼动自监督学习的框架
近年来,自监督学习因其出色的表示学习能力和对标注数据低依赖性而备受关注。文中综合评述了遮蔽建模框架及其方法学,并详细介绍了遮蔽建模中的技术细节,包括各种遮蔽策略、恢复目标、网络架构等。该框架在计算机视觉、自然语言处理和其他领域表现出了出色的性能,并探讨了不同领域中遮蔽建模方法的共性和差异。最后,讨论了当前技术的局限性并指出了几个可能的研究方向。
Dec, 2023
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文研究了遮蔽图像建模技术在医学三维图像分析中的应用,发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度,使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务,轻量级的解码器或投影头设计能够加快训练速度并降低成本,而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。
Apr, 2022
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
我们引入了一种新的学习框架,即分块式遮蔽图像建模(BIM),用于解决遮蔽图像建模(MIM)的计算资源需求高的问题,并在保持卓越性能的同时大大降低内存消耗,同时实现多个深度不同的 DNN 骨干的并发训练,从而降低与单独训练每个 DNN 骨干相比的计算成本。这为资源受限的 MIM 训练提供了有前景的解决方案。
Nov, 2023
该研究提出了一种新的自监督学习方法 Siamese Image Modeling,它通过预测同一图像的不同视图的表示来达到语义对齐和空间敏感的目的,这种方法在 ImageNet 微调和线性探测、COCO 和 LVIS 检测以及 ADE20k 语义分割等多项下游任务中都取得了更好的效果。
Jun, 2022
从大规模多视角视频数据中学习强大且可扩展的视觉表征仍然是计算机视觉和自动驾驶领域的一项挑战。我们提出了 MIM4D,一种基于双重遮罩图像建模(MIM)的新的预训练范例,它通过训练遮罩的多视角视频输入来利用空间和时间关系,从而构建伪 3D 特征并进行监督学习,以解决缺乏密集 3D 监测的问题。通过采用 3D 体积可微分渲染来学习几何表征,MIM4D 在自动驾驶中的可视表征学习任务中取得了最先进的性能,显著提高了多个下游任务的表现。
Mar, 2024
提出了一种基于决策的掩蔽图像模型(drawing-based mask image model, MIM)方法,利用强化学习自动搜索最佳图像掩蔽比例和掩蔽策略,并通过多主体协作捕捉体素间的依赖关系,从而在神经元分割任务上显著优于其他自我监督方法。
Oct, 2023
本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势,即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为,在 MIM 中,图像记号掩蔽与文本中的掩蔽不同,因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务,我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想,其中教师 Transformer 编码器生成关注图,该图我们用于指导学生的掩蔽。因此,我们引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认,AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。
Mar, 2022