MAR:用于高效行为识别的遮蔽自编码器
本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连续运动细节和对应关系来完成重建,从而增强模型的能力。与最先进的预训练方法相比,CatMAE 在视频分割任务和动作识别任务中取得了领先水平。
Nov, 2023
这篇论文介绍了一种名为 VideoMAC 的新方法,结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets,以及一种称为 MVM 的简单而有效的遮罩视频建模方法,通过在下游任务中的表现超过了基于 ViT 的方法。
Feb, 2024
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
研究了 Masked Autoencoders 在视频方面的应用,支持在没有时空归纳偏差的情况下,使用随机遮挡进行自编码器学习,观察到高比例遮挡可提高速度和表现,可以成为无监督学习的方法。
May, 2022
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型,且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。
Jun, 2022
本文提出了一种自适应掩蔽策略 AdaMAE,通过语义上下文采样网络有效地学习高空间时间信息的特征,达到更好的分类效果和更快的预训练速度。
Nov, 2022