CVPROct, 2022

自监督视频表示学习的掩模运动编码

TL;DR提出了一种名为 MME 的预训练模型,旨在通过重建外观和运动信息来探索时序线索,从而改善视频表示性能。方法着重解决多帧间的长期运动和从稀疏视频中获取细粒度时序线索这两个关键问题,并通过重建模糊区域中代表位置和形状变化的运动轨迹,使预训练模型进一步预测运动细节。