掩码自编码器在视觉和其他领域的自监督学习中的调查

Jul, 2022

掩码自编码器在视觉和其他领域的自监督学习中的调查

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Chaoning Zhang, Chenshuang Zhang, Junha Song, John Seon Keun Yi, Kang Zhang...

TL;DR本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述，着重于介绍其在视觉模式识别领域中的应用，包括历史发展、最新进展以及对各种应用的影响。

Abstract

Masked autoencoders are scalable vision learners, as the title of MAE \cite{he2022masked}, which suggests that self-supervised learning (ssl

masked autoencoder self-supervised learning vision generative tasks ssl

发现论文，激发创造

自监督掩码图自编码器

本研究提出了一种掩蔽图自编码器 (GraphMAE)，解决了基于结构数据增强和复杂的训练策略的对比学习的不足之处，侧重于特征重建，并表现出优异的性能。

May, 2022

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

模态不可知的元学习遮蔽自编码器的自监督学习

通过将 Masked Auto-Encoder（MAE）作为一个统一的、与模态无关的自监督学习框架，通过元学习对其进行解读，并从统一提高其在不同模态下的自监督学习的动机出发，我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务，并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读，我们提出了集成两种先进的元学习技术的方法。首先，我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后，我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐，从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准（称为 DABS）中的优越性，明显优于之前的基线。

Oct, 2023

如何理解掩蔽自编码器

本文第一次提出了一种统一的理论框架，用数学方法解释 MAE 的强大表现，说明其基于补丁的注意力方法，并使用操作符理论阐明了 MAE 成功的主要原因。

Feb, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

GraphMAE2: 一个集解码增强的掩码自监督图学习器

本文提出了一种基于掩蔽自监督学习框架 GraphMAE2，利用多视角随机重新覆盖解码策略和潜在表示预测策略，并通过广泛的实验表明其在各种公共数据集上始终产生顶级结果。

Apr, 2023

预测 MAE：基于掩码自编码器的运动预测的自监督预训练

通过引入 Forecast-MAE，一种专为自我监督学习运动预测任务设计的掩模自编码器框架的扩展，利用标准 Transformer 块以及最小的内在偏差，我们在具有挑战性的 Argoverse 2 运动预测基准测试上进行的实验表明，Forecast-MAE 取得了与依赖于监督学习和复杂设计的最先进方法竞争性的性能，并且明显优于以前的自我监督学习方法。

Aug, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

利用分层潜变量模型理解遮蔽自动编码器

本研究通过理论模型的建立及实验验证，提供了在 Masked autoencoder 框架下自监督学习的一些理论解释，并说明了其潜在局限性与未来改进方向。

Jun, 2023