Mar, 2024

具有 Siamese 裁剪遮罩自编码器的高效图像预训练

TL;DRCropMAE 是一种替代 SiamMAE 的 Siamese 预训练方法,通过仅考虑从同一图像裁剪而来的图像对,而不是从视频中提取的帧对,从而减少了对视频数据集的需求,同时保持了竞争性能,并大幅减少了预训练时间。此外,CropMAE 证明了它能够学习类似的物体中心化表示,而不需要明确的运动,这表明当前的自监督学习方法并不是从运动中学习对象,而是依赖于 Siamese 架构。最后,CropMAE 实现了迄今最高的遮挡比例(98.5%),仅使用两个可见的补丁就能重建图像。