重新思考面向掩码自编码器的补丁依赖

Jan, 2024

重新思考面向掩码自编码器的补丁依赖

Rethinking Patch Dependence for Masked Autoencoders

Letian Fu, Long Lian, Renhao Wang, Baifeng Shi, Xudong Wang...

TL;DR我们重新审视了遮蔽自编码器（MAE）解码机制中的区块间依赖关系，并将此解码机制分解为自注意力和交叉注意力。我们的研究表明，区块之间的自注意力对于学习良好的表示并非必要。基于此，我们提出了一种新颖的预训练框架：交叉注意力遮蔽自编码器（CrossMAE）。CrossMAE 的解码器只利用遮蔽和可见标记之间的交叉注意力，而不会降低下游性能。这种设计还可以只解码一小部分遮蔽标记，提高效率。此外，每个解码器块现在可以利用不同的编码器特征，从而改善表示学习。与 MAE 相比，CrossMAE 在解码计算上只需 2.5 到 3.7 倍的计算量，并在相同计算量下超越了 ImageNet 分类和 COCO 实例分割的 MAE 性能。

Abstract

In this work, we re-examine inter-patch dependencies in the decoding mechanism of masked autoencoders (MAE). We decompose this decoding mechanism for masked patch reconstruction in MAE into self-attention and

masked autoencoders self-attention cross-attention pretraining framework representation learning

发现论文，激发创造

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

混合自编码器用于自监督视觉表征学习

本文研究了 Masked Autoencoder 的数据扩增问题，提出了基于同源识别的 Mix Autoencoder 方法，通过自监督预训练可以提升下游视觉任务表现，在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。

Mar, 2023

如何理解掩蔽自编码器

本文第一次提出了一种统一的理论框架，用数学方法解释 MAE 的强大表现，说明其基于补丁的注意力方法，并使用操作符理论阐明了 MAE 成功的主要原因。

Feb, 2022

DropMAE: 带有空间注意力丢失的遮蔽自编码器用于跟踪任务

该研究旨在研究在视频上使用掩蔽自动编码器（MAE）进行预训练，从而实现针对视觉对象跟踪（VOT）和视频对象分割（VOS）等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器，在与 ImageNet-based MAE 相比较有着相同的表现，且其预培训速度更快。同时，该研究发现，先验于 DropMAE 中应用的视频的运动多样性比场景多样性对于提高 VOT 和 VOS 的性能更加重要。

Apr, 2023

从局部对比角度理解掩码自编码器

通过对编码器 - 解码器架构以及局部对比学习的分析，本文探索了 Masked AutoEncoder 的机制，并将其改进为一种局部区域级对比学习形式，为改进自监督学习框架提供了更全面和灵活的解释。

Oct, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

具有挑战性的解码器有助于稠密通道检索的掩码自编码器预训练

该研究提出了一种基于点互信息的令牌重要性感知遮蔽策略，以加强解码器的挑战，进而构建编码器的表示能力，并在大规模监督通道检索数据集和领域外零 - shot 检索基准上验证了其有效性和鲁棒性。

May, 2023