CVPRApr, 2023

DropMAE: 带有空间注意力丢失的遮蔽自编码器用于跟踪任务

TL;DR该研究旨在研究在视频上使用掩蔽自动编码器(MAE)进行预训练,从而实现针对视觉对象跟踪(VOT)和视频对象分割(VOS)等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器,在与 ImageNet-based MAE 相比较有着相同的表现,且其预培训速度更快。同时,该研究发现,先验于 DropMAE 中应用的视频的运动多样性比场景多样性对于提高 VOT 和 VOS 的性能更加重要。