ICCVAug, 2023

动作引导的掩模技术用于时空表示学习

TL;DR我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中,我们为视频 MAE 提供了 MGM 中的关键装备,并取得了高达 +1.3% 的改进。此外,我们的 MGM 只使用了最多 66% 的训练时期,就可以获得与先前的视频 MAE 相等的性能。最后,我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力,与基线方法相比,取得了高达 +4.9% 的改进。