自监督视觉表示学习的孪生图像建模

Jun, 2022

自监督视觉表示学习的孪生图像建模

Siamese Image Modeling for Self-Supervised Vision Representation Learning

Chenxin Tao, Xizhou Zhu, Weijie Su, Gao Huang, Bin Li...

TL;DR该研究提出了一种新的自监督学习方法 Siamese Image Modeling，它通过预测同一图像的不同视图的表示来达到语义对齐和空间敏感的目的，这种方法在 ImageNet 微调和线性探测、COCO 和 LVIS 检测以及 ADE20k 语义分割等多项下游任务中都取得了更好的效果。

Abstract

self-supervised learning (SSL) has delivered superior performance on a variety of downstream vision tasks. Two main-stream SSL frameworks have been proposed, i.e., instance discrimination (ID) and →

self-supervised learning instance discrimination masked image modeling siamese image modeling dense representations

发现论文，激发创造

多实例孪生自监督表示学习用于自动驾驶

自主驾驶是一个备受关注的领域，但标记数据的收集过程非常困难，自监督学习可能是提高模型性能的一种有效方式。本文提出了一种名为 MultiSiam 的方法，解决了多示例情况下的自监督学习存在的问题，包括跨视图一致性和相似度度量。该方法在公开数据集上具有很强的性能表现，并显示了特定领域预训练的潜力。

Aug, 2021

掩蔽连体卷积网络

本文研究掩蔽 Siamese 网络在卷积神经网络下的问题，并提出多个经验设计来逐渐解决这些问题。该方法在低样本图像分类上表现有竞争力，并在目标检测基准测试中优于以前的方法。

Jun, 2022

SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示

本研究提出了一种简洁而有效的框架 SemanticMIM，以整合遮罩图像建模（MIM）和对比学习（CL）的优势，用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析，揭示了它们互补优势根源于压缩和重建两个不同阶段，而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互，以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估，我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点，显著提升了性能和特征的线性可分性，并提供了引人注目的注意力响应可视化。

Jun, 2024

密集连体网络用于密集无监督学习

本论文提出了 Dense Siamese Network（DenseSiam），这是一种针对密集预测任务的简单的无监督学习框架，通过最大化图像两个视图之间的相似性（包括像素和区域一致性），学习视觉特征表示，并证明了其在图像分类和语义分割任务中的有效性。

Mar, 2022

MixMask：重访 Siamese ConvNets 的遮蔽策略

本研究结合 Masked Image Modeling (MIM) 和 Siamese Networks 的自我监督学习方法，通过 MixMask 构建填充式遮蔽策略，创新性地提出了一种新的 MIM 和 Siamese ConvNets 混合方法。在 CIFAR-100，Tiny ImageNet 和 ImageNet-1K 等数据集上进行了广泛的实验，证明该方法在线性探测、半监督和监督微调等任务上均能取得明显的优势。同时在目标检测和分割任务中也有显著的改进。

Oct, 2022

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

面具孪生网络用于标签高效学习

提出了一种自监督学习框架 ——Masked Siamese Networks (MSN)，用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配，可以进行自监督预训练，该策略特别适用于 Vision Transformer 模型，在提高联合嵌入结构的可扩展性的同时，产生高语义级别的表示，并在低样本图像分类方面表现竞争性，对 ImageNet-1K 数据集上，使用基础 MSN 模型以仅有 5000 个带注释的图像，达到了 72.4％的 top-1 准确度，并且只有 1％的 ImageNet-1K 标签，就取得了 75.7％的 top-1 准确度，创立了该基准测试的自监督学习的新的最佳成果。

Apr, 2022

掩码图像建模作为一种跨眼动自监督学习的框架

智能系统通过自我监督学习中的生成模型将复杂的感知输入转化为结构化编码，以获取与任务相关的信息，如物体类别和视觉表征。

Apr, 2024