从局部对比角度理解掩码自编码器

Oct, 2023

从局部对比角度理解掩码自编码器

Understanding Masked Autoencoders From a Local Contrastive Perspective

Xiaoyu Yue, Lei Bai, Meng Wei, Jiangmiao Pang, Xihui Liu...

TL;DR通过对编码器 - 解码器架构以及局部对比学习的分析，本文探索了 Masked AutoEncoder 的机制，并将其改进为一种局部区域级对比学习形式，为改进自监督学习框架提供了更全面和灵活的解释。

Abstract

masked autoencoder(MAE) has revolutionized the field of self-supervised learning with its simple yet effective masking and reconstruction strategies. However, despite achieving state-of-the-art performance across various →

masked autoencoder self-supervised learning downstream vision tasks rich hidden representations local features

发现论文，激发创造

利用分层潜变量模型理解遮蔽自动编码器

本研究通过理论模型的建立及实验验证，提供了在 Masked autoencoder 框架下自监督学习的一些理论解释，并说明了其潜在局限性与未来改进方向。

Jun, 2023

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

如何理解掩蔽自编码器

本文第一次提出了一种统一的理论框架，用数学方法解释 MAE 的强大表现，说明其基于补丁的注意力方法，并使用操作符理论阐明了 MAE 成功的主要原因。

Feb, 2022

对比遮蔽自编码器是更强的视觉学习者

Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.

Jul, 2022

R-MAE: 区域遇见掩模自编码器

本研究探讨了基于区域的检测器在无监督学习中的应用，使用掩膜自编码和自生成对抗网络（GAN）等方法进行重构预训练，提高了图像分割的精度和效率。

Jun, 2023

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

通过对齐和均匀性重新思考图形遮罩自编码器

通过在理论上构建 GraphMAE 和 GCL 之间的桥梁，我们证明了 GraphMAE 中的节点级重构目标隐含地执行上下文级 GCL，并指出了 GraphMAE 在对齐性和一致性方面的局限性。为了解决这些限制，我们提出了一种增强的对齐一致性图掩码自编码器 AUG-MAE，并通过实验证明了该模型优于现有最先进方法。

Feb, 2024

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

通过感知理解提高视觉表征学习

本文介绍了一种基于 MAE 的扩展方法，通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧，可以更好地重构像素并学习到更高级别的场景特征，进而在不使用其他预训练模型或数据的情况下，提高了图片分类等下游任务的性能，并在 ImageNet-1K 数据集上达到了 78.1% 的准确率。

Dec, 2022