增强掩模自编码器的伪标记

Jun, 2024

Pseudo Labelling for Enhanced Masked Autoencoders

Srinivasa Rao Nandam, Sara Atito, Zhenhua Feng, Josef Kittler, Muhammad Awais

TL;DR提出了一种增强的方法，通过集成伪标记和基于标记的重建来提高 Masked Autoencoders（MAE）的性能，在网络中促进实例级别的区分并捕捉局部上下文。

Abstract

masked image modeling (MIM)-based models, such as SdAE, CAE, GreenMIM, and MixAE, have explored different strategies to enhance the performance of Masked Autoencoders (MAE) by modifying prediction, loss functions, or incorporating additional architectural components. In this paper, we

masked image modeling masked autoencoders pseudo labelling token-level reconstruction instance-level discrimination

发现论文，激发创造

注视所见：不需重建的遮蔽图像建模

本文提出了一种名为 MaskAlign 的高效 MIM 范例，将可视化小片段功能与老师模型提取的整体图像特征相一致，证明即使在掩蔽区域没有重建的情况下，蒙面建模也不会失去效率。与 Dynamic Alignment 相结合，MaskAlign 能够实现高效的最新性能。

Nov, 2022

标签掩码自编码器 (L-MAE)：一种纯 Transformer 方法来增强语义分割数据集

该论文提出了一种基于标签自动编码器的像素级别完整方法，通过融合策略实现图片修补，并且采用了图像补丁补充算法，取得了较好的语义分割结果。

Nov, 2022

混合自编码器用于自监督视觉表征学习

本文研究了 Masked Autoencoder 的数据扩增问题，提出了基于同源识别的 Mix Autoencoder 方法，通过自监督预训练可以提升下游视觉任务表现，在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。

Mar, 2023

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

通过感知理解提高视觉表征学习

本文介绍了一种基于 MAE 的扩展方法，通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧，可以更好地重构像素并学习到更高级别的场景特征，进而在不使用其他预训练模型或数据的情况下，提高了图片分类等下游任务的性能，并在 ImageNet-1K 数据集上达到了 78.1% 的准确率。

Dec, 2022

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

SemMAE：用语义引导的遮蔽训练自编码器

本文提出了一种 Semantic-Guided Masking 策略，通过引入语义部分将语义信息集成到 MAE 训练过程中，以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色，特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度，比基本 MAE 高 1.4%。

Jun, 2022

CL-MAE：课程学习掩码自编码器

我们提出了一种基于课程学习的掩模自编码器（CL-MAE），通过不断增加自监督重建任务的复杂性，逐渐提高模型学习更复杂和可转移的表示能力，并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练，通过在五个下游任务上的实证结果验证了我们的猜想，展示了课程学习在自监督掩模自编码器中的成功应用。

Aug, 2023

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023