MGMAE: 视频蒙版自编码的运动引导掩蔽
我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中,我们为视频 MAE 提供了 MGM 中的关键装备,并取得了高达 +1.3% 的改进。此外,我们的 MGM 只使用了最多 66% 的训练时期,就可以获得与先前的视频 MAE 相等的性能。最后,我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力,与基线方法相比,取得了高达 +4.9% 的改进。
Aug, 2023
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022
本文提出了一种自适应掩蔽策略 AdaMAE,通过语义上下文采样网络有效地学习高空间时间信息的特征,达到更好的分类效果和更快的预训练速度。
Nov, 2022
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
Mar, 2023
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度,比基本 MAE 高 1.4%。
Jun, 2022
研究了 Masked Autoencoders 在视频方面的应用,支持在没有时空归纳偏差的情况下,使用随机遮挡进行自编码器学习,观察到高比例遮挡可提高速度和表现,可以成为无监督学习的方法。
May, 2022
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
研究介绍了结构导向的掩膜策略(StructMAE),该策略通过评估节点的结构重要性并进行渐进式掩膜,从而有效地引导模型学习图结构信息,并在无监督学习和迁移学习任务中优于现有的 GMAE 模型。
Apr, 2024
本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连续运动细节和对应关系来完成重建,从而增强模型的能力。与最先进的预训练方法相比,CatMAE 在视频分割任务和动作识别任务中取得了领先水平。
Nov, 2023