May, 2024

ARVideo:用于自监督视频表示学习的自回归预训练

TL;DR该论文介绍了一种新的自我监督视频表示学习框架 ARVideo,其中通过自回归方式预测下一个视频令牌,将自回归视频令牌按照时空间隔进行聚类,并采用随机化时空预测顺序来提高学习效果,实验证明 ARVideo 是一种有效的自我监督视频表示学习范式,具有更高的训练效率。