自拍：自监督图像嵌入预训练

Jun, 2019

Selfie: Self-supervised Pretraining for Image Embedding

PDF

Trieu H. Trinh, Minh-Thang Luong, Quoc V. Le

TL;DR本文介绍了一种名为 Selfie 的预训练技术，其可以通过对图像进行掩蔽语言建模来进行图像嵌入，并且可以很好地适用于低数据情况下的 ResNet-50 图像分类器的训练。

Abstract

We introduce a pretraining technique called selfie, which stands for selfie supervised →

selfie pretraining image embedding contrastive predictive coding resnet-50

发现论文，激发创造

面具孪生网络用于标签高效学习

提出了一种自监督学习框架 ——Masked Siamese Networks (MSN)，用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配，可以进行自监督预训练，该策略特别适用于 Vision Transformer 模型，在提高联合嵌入结构的可扩展性的同时，产生高语义级别的表示，并在低样本图像分类方面表现竞争性，对 ImageNet-1K 数据集上，使用基础 MSN 模型以仅有 5000 个带注释的图像，达到了 72.4％的 top-1 准确度，并且只有 1％的 ImageNet-1K 标签，就取得了 75.7％的 top-1 准确度，创立了该基准测试的自监督学习的新的最佳成果。

Apr, 2022

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

基于领域感知的自监督预训练，用于标签少的模因分析

我们提出了两种自监督预训练方法，即 Ext-PIE-Net 和 MM-SimCLR，通过采用现成的多模态仇恨言论数据和多个专门的预设任务实现了自监督学习，为模因分析提供了必要的复杂多模态表示学习，通过标签有效训练，在所有三个任务中性能优于基线并证实了我们的方法的泛化性。

Sep, 2022

自监督学习在利用 Transformer 进行物体检测方面的实证研究

研究使用自监督学习中的图像重构、遮蔽图像建模和拼图等方法来训练物体检测转换器的编码器，以实现预训练和多任务学习，并在 iSAID 数据集上进行了初步实验。

May, 2022

重新思考预训练和自训练

在计算机视觉中，自我训练是一种使用额外数据的替代方法，与常用的预训练模型初始化方法相比具有更强的通用性和灵活性，并提供了新的见解，包括：1）更强的数据增强和更多标记数据会进一步降低预训练的价值，2）自我训练在低数据和高数据环境下使用更强的数据增强时都有帮助，3）在预训练有效的情况下，自我训练能够进一步提高对象检测的准确性。

Jun, 2020

对比检测的高效视觉预训练

引入对比检测算法的自监督目标，通过在图像增强中识别物体水平特征提取富有学习信息的信号，实现高效的自监督预训练，拥有多种下游任务的领先转移精度。在 ImageNet 预训练模型表现与大型自监督系统 SEER 相当的同时，需要少至 10 倍的预训练数据量，最终该目标还能轻松应对更复杂的图像。

Mar, 2021

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023