基于自举的遮蔽自编码器的视觉 BERT 预训练
本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE,通过三个关键设计,包括污染输入、不对称模型结构和不对称的遮盖比率,取得了令人满意的实验结果,大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。
May, 2022
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
本文提出了一种名为 MixMAE 的方法,可以有效地预先训练不同的分层视觉转换器,并取代掩蔽图像建模(MIM)方法,仍然可以对受损图像进行建模,而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明,使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。
May, 2022
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
通过使用增强解码的遮蔽自动编码器预训练,显著提高了稠密表示中输入标记的术语覆盖,从而实现了在大规模检索基准上的最先进的检索性能,无需任何额外参数,相比于使用增强解码的标准遮蔽自动编码器预训练速度提高了 67%。
Jan, 2024
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
Mar, 2023
本文提出了统一遮蔽(Uniform Masking,UM)技术,将其成功应用于金字塔式视觉变换器(Pyramid-based ViTs)的 MAE 预训练中,命名为 UM-MAE。UM 技术包括均匀抽样(Uniform Sampling,US)和辅助遮蔽(Secondary Masking,SM),大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。
May, 2022
Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.
Jul, 2022