May, 2023

孪生掩模自编码器

TL;DR本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法,使用视频学习视觉对应关系,通过对大量补丁进行遮罩,鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下,实现与先前的自我监督方法相比更好的表现。