自监督学习的对抗性屏蔽
本论文提出了一种新颖的防御方法 MIMIR,通过在预训练阶段利用 Masked Image Modeling 构建不同的对抗训练方法,从而提高 Vision Transformers 的鲁棒性和性能。实验证明,相较于基线模型,MIMIR 在 CIFAR-10 和 ImageNet-1K 上的(自然和对抗)准确率平均提高了 4.19%和 5.52%。
Dec, 2023
该研究提出了一种新的自监督学习方法 Siamese Image Modeling,它通过预测同一图像的不同视图的表示来达到语义对齐和空间敏感的目的,这种方法在 ImageNet 微调和线性探测、COCO 和 LVIS 检测以及 ADE20k 语义分割等多项下游任务中都取得了更好的效果。
Jun, 2022
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022
本研究提出了有效的训练方案,以降低数据加载瓶颈和维持预训练性能,实现了高效的自监督学习训练,为更广泛的可访问性和推动自监督学习研究的进展铺平了道路。
Mar, 2024
基于动态令牌变形的掩码图像建模(DTM)是一种有前景的自监督学习方法,可应用于不同的 SSL 框架,在不引入额外的训练成本的情况下有效改进表现,并经过多个实验证明其在各种下游任务上的可迁移性。
Dec, 2023
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
本研究结合 Masked Image Modeling (MIM) 和 Siamese Networks 的自我监督学习方法,通过 MixMask 构建填充式遮蔽策略,创新性地提出了一种新的 MIM 和 Siamese ConvNets 混合方法。在 CIFAR-100,Tiny ImageNet 和 ImageNet-1K 等数据集上进行了广泛的实验,证明该方法在线性探测、半监督和监督微调等任务上均能取得明显的优势。同时在目标检测和分割任务中也有显著的改进。
Oct, 2022
本文探讨了如何利用适当的遮罩策略来提高基于掩蔽的语言模型在领域自适应任务上的性能,并提出了一种有效的训练策略,即通过对更难以恢复的标记进行对抗性遮蔽,以使模型更好地适应目标任务。通过六个无监督领域适应任务,该方法在命名实体识别方面显著优于随机遮蔽策略,提高了 1.64 个 F1 分数。
Oct, 2020