掩蔽连体卷积网络
提出了一种自监督学习框架 ——Masked Siamese Networks (MSN),用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配,可以进行自监督预训练,该策略特别适用于 Vision Transformer 模型,在提高联合嵌入结构的可扩展性的同时,产生高语义级别的表示,并在低样本图像分类方面表现竞争性,对 ImageNet-1K 数据集上,使用基础 MSN 模型以仅有 5000 个带注释的图像,达到了 72.4%的 top-1 准确度,并且只有 1%的 ImageNet-1K 标签,就取得了 75.7%的 top-1 准确度,创立了该基准测试的自监督学习的新的最佳成果。
Apr, 2022
本研究结合 Masked Image Modeling (MIM) 和 Siamese Networks 的自我监督学习方法,通过 MixMask 构建填充式遮蔽策略,创新性地提出了一种新的 MIM 和 Siamese ConvNets 混合方法。在 CIFAR-100,Tiny ImageNet 和 ImageNet-1K 等数据集上进行了广泛的实验,证明该方法在线性探测、半监督和监督微调等任务上均能取得明显的优势。同时在目标检测和分割任务中也有显著的改进。
Oct, 2022
该研究提出了一种新的自监督学习方法 Siamese Image Modeling,它通过预测同一图像的不同视图的表示来达到语义对齐和空间敏感的目的,这种方法在 ImageNet 微调和线性探测、COCO 和 LVIS 检测以及 ADE20k 语义分割等多项下游任务中都取得了更好的效果。
Jun, 2022
近年来,自监督学习因其出色的表示学习能力和对标注数据低依赖性而备受关注。文中综合评述了遮蔽建模框架及其方法学,并详细介绍了遮蔽建模中的技术细节,包括各种遮蔽策略、恢复目标、网络架构等。该框架在计算机视觉、自然语言处理和其他领域表现出了出色的性能,并探讨了不同领域中遮蔽建模方法的共性和差异。最后,讨论了当前技术的局限性并指出了几个可能的研究方向。
Dec, 2023
通过在卷积神经网络中引入掩蔽操作作为额外的数据增强方法,并显式考虑显著性约束,本研究提出了一种改进的对比学习框架,以减轻包括掩蔽操作在内的对比学习中存在的问题,并在多个数据集、对比学习机制和下游任务上进行的广泛实验验证了其有效性和卓越性能。
Sep, 2023
本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法,使用视频学习视觉对应关系,通过对大量补丁进行遮罩,鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下,实现与先前的自我监督方法相比更好的表现。
May, 2023
通过对比侧面乳房 X 射线摄影图像来训练神经网络,以实现全面无监督的方式区分异常病变和背景组织,从而实现乳房补丁分类任务中的卓越性能。
Jan, 2024
本文提出了一种新的自监督方法 SidAE,将 Siamese 结构和去噪自编码器相结合进行无监督预训练,证明其在多个数据集、设定和场景下优于两个自监督对照组,其中关键包括仅有少量标记数据的情况。
Apr, 2023
视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn)对这些下游任务的影响进行系统级研究。基于我们的详细分析,我们提出了一个框架,将掩模图片建模和聚类作为预训练任务,这个框架在包括多类分类、多标签分类和语义分割在内的所有低样本下游任务中表现更好。此外,当在完整规模的数据集上测试模型时,我们在多类分类、多标签分类和语义分割中展示了性能提升。
Jun, 2024
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023