具有 Siamese 裁剪遮罩自编码器的高效图像预训练

Mar, 2024

具有 Siamese 裁剪遮罩自编码器的高效图像预训练

Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders

Alexandre Eymaël, Renaud Vandeghen, Anthony Cioppa, Silvio Giancola, Bernard Ghanem...

TL;DRCropMAE 是一种替代 SiamMAE 的 Siamese 预训练方法，通过仅考虑从同一图像裁剪而来的图像对，而不是从视频中提取的帧对，从而减少了对视频数据集的需求，同时保持了竞争性能，并大幅减少了预训练时间。此外，CropMAE 证明了它能够学习类似的物体中心化表示，而不需要明确的运动，这表明当前的自监督学习方法并不是从运动中学习对象，而是依赖于 Siamese 架构。最后，CropMAE 实现了迄今最高的遮挡比例（98.5%），仅使用两个可见的补丁就能重建图像。

Abstract

self-supervised pre-training of image encoders is omnipresent in the literature, particularly following the introduction of Masked autoencoders (MAE). Current efforts attempt to learn →

self-supervised pre-training image encoders object-centric representations siammae cropmae

发现论文，激发创造

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

MixMAE: 混合和掩蔽自编码器用于高效的分层视觉 Transformer 预训练

本文提出了一种名为 MixMAE 的方法，可以有效地预先训练不同的分层视觉转换器，并取代掩蔽图像建模（MIM）方法，仍然可以对受损图像进行建模，而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明，使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。

May, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023

T-MAE：用于点云表示学习的时态掩码自动编码器

在户外点云分割中，基于转换器等先进网络的建模能力受制于标注数据的稀缺性。为了更好地利用点云序列中蕴含的时间信息，本文提出了一种有效的预训练策略，即时序遮蔽自动编码器 (Temporal Masked AutoEncoders, T-MAE)，通过输入与时间相关的相邻帧并学习时间依赖关系。T-MAE 预训练策略结合了 SiamWCA 骨干网络，其中包含了孪生编码器和基于窗口的交叉注意力模块 (window-based cross-attention, WCA)，用于接收两帧输入。此外，为了提高目标对象的理解能力，时间建模还作为一种稳健且天然的数据增强方法，在同一对象的不同帧之间考虑自车运动改变的照明角度。通过使用遥远的历史帧而非连续帧，可以更加成本有效且强大。在自监督学习方法中，利用 T-MAE 预训练策略在 Waymo 数据集上实现了最佳性能。通过全面实验验证了本提案的所有组成部分。在接受后，源代码将会公开。

Dec, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

对比遮蔽自编码器是更强的视觉学习者

Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.

Jul, 2022

混合自编码器用于自监督视觉表征学习

本文研究了 Masked Autoencoder 的数据扩增问题，提出了基于同源识别的 Mix Autoencoder 方法，通过自监督预训练可以提升下游视觉任务表现，在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。

Mar, 2023