Nov, 2023
融合编码的自动编码器作为时空学习者
Concatenated Masked Autoencoders as Spatial-Temporal Learner
TL;DR本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连续运动细节和对应关系来完成重建,从而增强模型的能力。与最先进的预训练方法相比,CatMAE在视频分割任务和动作识别任务中取得了领先水平。