Dec, 2024

扩展4D表示

TL;DR本研究解决了从视频进行纯自监督学习的扩展性问题,重点评估非语义视觉任务(如相机姿态估计、点和物体跟踪、深度估计)的自监督学习效果。通过从非常大的视频数据集中学习,本文展示了使用变换器视频模型的掩蔽自编码(MAE)能够有效扩展,从而在4D任务上随着模型规模的增加显著提高性能。