基于自举的遮蔽自编码器的视觉 BERT 预训练

ECCVJul, 2022

基于自举的遮蔽自编码器的视觉 BERT 预训练

Bootstrapped Masked Autoencoders for Vision BERT Pretraining

PDF

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang...

TL;DRBootMAE 是一种新的预训练方法，通过增加动量编码器和目标感知解码器来改进原始的 Masked Autoencoders。实验证明，使用 BootMAE 可以在多个视觉任务中获得更高的性能。

Abstract

We propose bootstrapped masked autoencoders (bootmae), a new approach for vision bert pretraining. →

bootmae masked autoencoders vision bert pretraining momentum encoder target-aware decoder

发现论文，激发创造

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

ConvMAE：掩码卷积与掩码自编码器相遇

本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入，提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法，可以在保证计算效率的同时提高了分类和检测的准确率。

May, 2022

MixMAE: 混合和掩蔽自编码器用于高效的分层视觉 Transformer 预训练

本文提出了一种名为 MixMAE 的方法，可以有效地预先训练不同的分层视觉转换器，并取代掩蔽图像建模（MIM）方法，仍然可以对受损图像进行建模，而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明，使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。

May, 2022

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

放弃您的解码器：使用词袋预测进行密集段落检索的预训练

通过使用增强解码的遮蔽自动编码器预训练，显著提高了稠密表示中输入标记的术语覆盖，从而实现了在大规模检索基准上的最先进的检索性能，无需任何额外参数，相比于使用增强解码的标准遮蔽自动编码器预训练速度提高了 67%。

Jan, 2024

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

VideoMAE V2: 基于双重蒙版的视频自编码器扩展

本文介绍了使用视频掩码自编码器（VideoMAE）进行可扩展和一般自监督预训练，用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。

Mar, 2023

统一蒙版：使用局部信息实现金字塔视觉 Transformer 的 MAE 预训练

本文提出了统一遮蔽（Uniform Masking，UM）技术，将其成功应用于金字塔式视觉变换器（Pyramid-based ViTs）的 MAE 预训练中，命名为 UM-MAE。UM 技术包括均匀抽样（Uniform Sampling，US）和辅助遮蔽（Secondary Masking，SM），大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。

May, 2022

对比遮蔽自编码器是更强的视觉学习者

Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.

Jul, 2022