自监督视觉表示学习的孪生图像建模
自主驾驶是一个备受关注的领域,但标记数据的收集过程非常困难,自监督学习可能是提高模型性能的一种有效方式。本文提出了一种名为 MultiSiam 的方法,解决了多示例情况下的自监督学习存在的问题,包括跨视图一致性和相似度度量。该方法在公开数据集上具有很强的性能表现,并显示了特定领域预训练的潜力。
Aug, 2021
本文研究掩蔽 Siamese 网络在卷积神经网络下的问题,并提出多个经验设计来逐渐解决这些问题。该方法在低样本图像分类上表现有竞争力,并在目标检测基准测试中优于以前的方法。
Jun, 2022
本研究提出了一种简洁而有效的框架 SemanticMIM,以整合遮罩图像建模(MIM)和对比学习(CL)的优势,用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析,揭示了它们互补优势根源于压缩和重建两个不同阶段,而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互,以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估,我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点,显著提升了性能和特征的线性可分性,并提供了引人注目的注意力响应可视化。
Jun, 2024
本论文提出了 Dense Siamese Network(DenseSiam),这是一种针对密集预测任务的简单的无监督学习框架,通过最大化图像两个视图之间的相似性(包括像素和区域一致性),学习视觉特征表示,并证明了其在图像分类和语义分割任务中的有效性。
Mar, 2022
本研究结合 Masked Image Modeling (MIM) 和 Siamese Networks 的自我监督学习方法,通过 MixMask 构建填充式遮蔽策略,创新性地提出了一种新的 MIM 和 Siamese ConvNets 混合方法。在 CIFAR-100,Tiny ImageNet 和 ImageNet-1K 等数据集上进行了广泛的实验,证明该方法在线性探测、半监督和监督微调等任务上均能取得明显的优势。同时在目标检测和分割任务中也有显著的改进。
Oct, 2022
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
提出了一种自监督学习框架 ——Masked Siamese Networks (MSN),用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配,可以进行自监督预训练,该策略特别适用于 Vision Transformer 模型,在提高联合嵌入结构的可扩展性的同时,产生高语义级别的表示,并在低样本图像分类方面表现竞争性,对 ImageNet-1K 数据集上,使用基础 MSN 模型以仅有 5000 个带注释的图像,达到了 72.4%的 top-1 准确度,并且只有 1%的 ImageNet-1K 标签,就取得了 75.7%的 top-1 准确度,创立了该基准测试的自监督学习的新的最佳成果。
Apr, 2022