R-MAE: 区域遇见掩模自编码器

Jun, 2023

R-MAE: Regions Meet Masked Autoencoders

Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov...

TL;DR本研究探讨了基于区域的检测器在无监督学习中的应用，使用掩膜自编码和自生成对抗网络（GAN）等方法进行重构预训练，提高了图像分割的精度和效率。

Abstract

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we exp

region-based detectors reconstructive pre-training masked autoencoding unsupervised learning image segmentation

发现论文，激发创造

PersonMAE: 使用遮罩自编码器进行人物再识别预训练

我们提出了一个简洁而有效的预训练框架，名为 PersonMAE，通过引入两个核心设计到遮挡自编码器中，以更好地为 Person Re-ID 任务提供服务，并在四个下游任务中实现了最先进的性能。

Nov, 2023

从局部对比角度理解掩码自编码器

通过对编码器 - 解码器架构以及局部对比学习的分析，本文探索了 Masked AutoEncoder 的机制，并将其改进为一种局部区域级对比学习形式，为改进自监督学习框架提供了更全面和灵活的解释。

Oct, 2023

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

如何理解掩蔽自编码器

本文第一次提出了一种统一的理论框架，用数学方法解释 MAE 的强大表现，说明其基于补丁的注意力方法，并使用操作符理论阐明了 MAE 成功的主要原因。

Feb, 2022

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

利用分层潜变量模型理解遮蔽自动编码器

本研究通过理论模型的建立及实验验证，提供了在 Masked autoencoder 框架下自监督学习的一些理论解释，并说明了其潜在局限性与未来改进方向。

Jun, 2023

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024