SemMAE：用语义引导的遮蔽训练自编码器

Jun, 2022

SemMAE：用语义引导的遮蔽训练自编码器

SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders

Gang Li, Heliang Zheng, Daqing Liu, Chaoyue Wang, Bing Su...

TL;DR本文提出了一种 Semantic-Guided Masking 策略，通过引入语义部分将语义信息集成到 MAE 训练过程中，以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色，特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度，比基本 MAE 高 1.4%。

Abstract

Recently, significant progress has been made in masked image modeling to catch up to masked language modeling. However, unlike words in NLP, the lack of semantic decomposition of images still makes masked autoencoding (MAE) different between vision and language. In this paper, we explo

masked autoencoding semantic parts visual analogues semantic-guided masking image representation

发现论文，激发创造

医学监督下的自编码器：为医学图像分类制定更好的遮盖策略和高效的微调计划

本文提出了一种 Medical Supervised Masked Autoencoder (MSMAE) 模型来解决传统 Masked Autoencoder (MAE) 模型在医学图像分类和分割中存在的问题，通过监督训练精确地遮蔽医学图像以及在微调阶段通过注意力机制指导遮蔽医学图像，显著提高了 MSMAE 模型的计算效率和医学诊断质量。

May, 2023

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

SS-MAE：用于多源遥感图像分类的空间 - 频谱屏蔽自编码器

提出了一种空间 - 光谱掩码自编码器 (SS-MAE) 用于高光谱成像和激光雷达 / 合成孔径雷达数据的联合分类，实现了空间和光谱表示的充分利用，并通过在训练阶段添加两个轻量级卷积神经网络来补充局部特征，成功在三个公开数据集上验证了 SS-MAE 相对于其他先进基线方法的优越性。

Nov, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

MGMAE: 视频蒙版自编码的运动引导掩蔽

本文介绍了一种新的视频自编码方法，采用运动引导的掩模策略，通过引入运动信息建立时间一致的掩模体积，从而提高视频自编码的性能。通过实验证明，该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。

Aug, 2023

混合自编码器用于自监督视觉表征学习

本文研究了 Masked Autoencoder 的数据扩增问题，提出了基于同源识别的 Mix Autoencoder 方法，通过自监督预训练可以提升下游视觉任务表现，在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。

Mar, 2023

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023