MV2MAE：多视角视频掩码自编码器

Jan, 2024

MV2MAE: Multi-View Video Masked Autoencoders

Ketul Shah, Robert Crandall, Jie Xu, Peng Zhou, Marian George...

TL;DR从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Abstract

videos captured from multiple viewpoints can help in perceiving the 3D structure of the world and benefit computer vision tasks such as action recognition, tracking, etc. In this paper, we present a method for self-supe

videos self-supervised learning multi-view geometry information temporal modeling

发现论文，激发创造

点云自监督学习：基于三维到多视角遮蔽自编码器

通过使用 3D 到多视图掩码自编码器，充分利用 3D 点云的多模属性，提出了一种全新的方法，这不仅丰富了模型对几何结构的理解，还利用了点云的固有多模性能，有效地改进了各种任务，包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。

Nov, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

MGMAE: 视频蒙版自编码的运动引导掩蔽

本文介绍了一种新的视频自编码方法，采用运动引导的掩模策略，通过引入运动信息建立时间一致的掩模体积，从而提高视频自编码的性能。通过实验证明，该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。

Aug, 2023

融合编码的自动编码器作为时空学习者

本文介绍了链接蒙版自动编码器（CatMAE）作为自我监督视频表示学习的时空学习器，该方法使模型能够估计可见补丁之间的运动信息，匹配前后帧之间的对应关系，并最终学习场景的演变。此外，还提出了一种新的数据增强策略，ViRe，进一步鼓励模型利用连续运动细节和对应关系来完成重建，从而增强模型的能力。与最先进的预训练方法相比，CatMAE 在视频分割任务和动作识别任务中取得了领先水平。

Nov, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

VideoMAC: 视频蒙版自动编码器与卷积神经网络相遇

这篇论文介绍了一种名为 VideoMAC 的新方法，结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets，以及一种称为 MVM 的简单而有效的遮罩视频建模方法，通过在下游任务中的表现超过了基于 ViT 的方法。

Feb, 2024

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

动作引导的掩模技术用于时空表示学习

我们提出了一种运动引导的掩蔽算法 (MGM)，通过利用运动矢量来引导每个掩蔽的位置，从而更高效地利用视频显著性，与先前的最先进方法相比，在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中，我们为视频 MAE 提供了 MGM 中的关键装备，并取得了高达 +1.3% 的改进。此外，我们的 MGM 只使用了最多 66% 的训练时期，就可以获得与先前的视频 MAE 相等的性能。最后，我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力，与基线方法相比，取得了高达 +4.9% 的改进。

Aug, 2023

VideoMAE V2: 基于双重蒙版的视频自编码器扩展

本文介绍了使用视频掩码自编码器（VideoMAE）进行可扩展和一般自监督预训练，用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。

Mar, 2023