BIM: 基于块的自监督学习与图像模型掩膜
本文研究了遮蔽图像建模技术在医学三维图像分析中的应用,发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度,使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务,轻量级的解码器或投影头设计能够加快训练速度并降低成本,而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。
Apr, 2022
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。
Sep, 2021
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本文提出了一种 Masked Image Modeling(MIM)的改进方案,通过在多个不同尺度的层次上进行重构任务,显式地指导多个层次的编码器,在减小预训练负担的同时,在分类、检测和分割任务中取得可比或更好的性能。
Mar, 2023
我们提出了脑启发的 Masked 建模 (BIMM) 框架,通过学习图像和视频表示,使用视觉变换器 (ViT) 作为骨干,并在训练过程中采用部分参数共享策略,在模拟人脑的视觉通路中取得了优越的性能。
May, 2024
基于动态令牌变形的掩码图像建模(DTM)是一种有前景的自监督学习方法,可应用于不同的 SSL 框架,在不引入额外的训练成本的情况下有效改进表现,并经过多个实验证明其在各种下游任务上的可迁移性。
Dec, 2023
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022