面具孪生网络用于标签高效学习

Apr, 2022

Masked Siamese Networks for Label-Efficient Learning

Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes...

TL;DR提出了一种自监督学习框架 ——Masked Siamese Networks (MSN)，用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配，可以进行自监督预训练，该策略特别适用于 Vision Transformer 模型，在提高联合嵌入结构的可扩展性的同时，产生高语义级别的表示，并在低样本图像分类方面表现竞争性，对 ImageNet-1K 数据集上，使用基础 MSN 模型以仅有 5000 个带注释的图像，达到了 72.4％的 top-1 准确度，并且只有 1％的 ImageNet-1K 标签，就取得了 75.7％的 top-1 准确度，创立了该基准测试的自监督学习的新的最佳成果。

Abstract

We propose masked siamese networks (MSN), a self-supervised learning framework for learning image representations. Our approach matches th

masked siamese networks self-supervised learning image representations vision transformers low-shot image classification

发现论文，激发创造

掩蔽连体卷积网络

本文研究掩蔽 Siamese 网络在卷积神经网络下的问题，并提出多个经验设计来逐渐解决这些问题。该方法在低样本图像分类上表现有竞争力，并在目标检测基准测试中优于以前的方法。

Jun, 2022

MixMask：重访 Siamese ConvNets 的遮蔽策略

本研究结合 Masked Image Modeling (MIM) 和 Siamese Networks 的自我监督学习方法，通过 MixMask 构建填充式遮蔽策略，创新性地提出了一种新的 MIM 和 Siamese ConvNets 混合方法。在 CIFAR-100，Tiny ImageNet 和 ImageNet-1K 等数据集上进行了广泛的实验，证明该方法在线性探测、半监督和监督微调等任务上均能取得明显的优势。同时在目标检测和分割任务中也有显著的改进。

Oct, 2022

自监督视觉表示学习的孪生图像建模

该研究提出了一种新的自监督学习方法 Siamese Image Modeling，它通过预测同一图像的不同视图的表示来达到语义对齐和空间敏感的目的，这种方法在 ImageNet 微调和线性探测、COCO 和 LVIS 检测以及 ADE20k 语义分割等多项下游任务中都取得了更好的效果。

Jun, 2022

MSN：视频实例分割的高效在线遮蔽选择网络

本文提出一种新的视频实例分割方法，利用基于 patch 的卷积神经网络设计的掩模选择网络，以及前向和后向推理的时间一致性策略来提高分割结果的准确性，从而实现了对视频中对象的跟踪和分割。该方法在 2021 年 YouTube-VIS 挑战赛中获得了 49.1mAP 的得分，并获得了第三名的成绩。

Jun, 2021

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

自拍：自监督图像嵌入预训练

本文介绍了一种名为 Selfie 的预训练技术，其可以通过对图像进行掩蔽语言建模来进行图像嵌入，并且可以很好地适用于低数据情况下的 ResNet-50 图像分类器的训练。

Jun, 2019

MST：遮蔽式自监督变压器用于视觉表示

本文提出了 MST 方法，它可以显式捕捉图像的局部上下文并保留全局语义信息，在密集预测任务上有更好的性能，在多个数据集上得到验证，并优于同等时期的监督方法和其可比的变体 DINO。

Jun, 2021

使用软标签的孪生网络在筛查乳腺 X 射线照片上进行无监督异常检测和裁剪预训练

通过对比侧面乳房 X 射线摄影图像来训练神经网络，以实现全面无监督的方式区分异常病变和背景组织，从而实现乳房补丁分类任务中的卓越性能。

Jan, 2024

层次特征掩模的自监督学习

本研究提出了一种有效的自监督方法 MaskDeep，通过层次化地掩盖图像中的部分表示来重构高语义信息，通过固定可见区域，能够提供图像的更多描述，实验结果表明 MaskDeep 超越了多项自监督方法，成为了目前图像线性分类和对象检测任务最佳表现。

Apr, 2023

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023