DropMAE: 带有空间注意力丢失的遮蔽自编码器用于跟踪任务

CVPRApr, 2023

DropMAE: 带有空间注意力丢失的遮蔽自编码器用于跟踪任务

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks

Qiangqiang Wu, Tianyu Yang, Ziquan Liu, Baoyuan Wu, Ying Shan...

TL;DR该研究旨在研究在视频上使用掩蔽自动编码器（MAE）进行预训练，从而实现针对视觉对象跟踪（VOT）和视频对象分割（VOS）等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器，在与 ImageNet-based MAE 相比较有着相同的表现，且其预培训速度更快。同时，该研究发现，先验于 DropMAE 中应用的视频的运动多样性比场景多样性对于提高 VOT 和 VOS 的性能更加重要。

Abstract

In this paper, we study masked autoencoder (MAE) pretraining on videos for matching-based downstream tasks, including visual object tracking (VOT) and video object segmentation (VOS). A simple extension of MAE is

masked autoencoder pretraining visual object tracking video object segmentation temporal correspondence motion diversity

发现论文，激发创造

遮盖自编码器作为时空学习器

研究了 Masked Autoencoders 在视频方面的应用，支持在没有时空归纳偏差的情况下，使用随机遮挡进行自编码器学习，观察到高比例遮挡可提高速度和表现，可以成为无监督学习的方法。

May, 2022

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

融合编码的自动编码器作为时空学习者

本文介绍了链接蒙版自动编码器（CatMAE）作为自我监督视频表示学习的时空学习器，该方法使模型能够估计可见补丁之间的运动信息，匹配前后帧之间的对应关系，并最终学习场景的演变。此外，还提出了一种新的数据增强策略，ViRe，进一步鼓励模型利用连续运动细节和对应关系来完成重建，从而增强模型的能力。与最先进的预训练方法相比，CatMAE 在视频分割任务和动作识别任务中取得了领先水平。

Nov, 2023

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

MGMAE: 视频蒙版自编码的运动引导掩蔽

本文介绍了一种新的视频自编码方法，采用运动引导的掩模策略，通过引入运动信息建立时间一致的掩模体积，从而提高视频自编码的性能。通过实验证明，该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。

Aug, 2023

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024