ICMLJun, 2024

基于随机帧预测的视觉表示学习

TL;DR通过预测未来帧进行图像表示的无监督学习是一个有前景的方向,但仍然面临挑战。为了解决这一挑战,在本文中,我们重新审视了学习捕捉帧预测的不确定性的随机视频生成的思想,并探索了其在表示学习中的有效性。我们设计了一个框架,训练一个随机帧预测模型,学习帧之间的时间信息。此外,为了学习每一帧中的密集信息,我们引入了一个辅助的带蒙版图像建模目标,以及一个共享的解码器架构。我们发现这种架构能够以协同和高效的方式结合两个目标。我们在视频标签传播和基于视觉的机器人学习领域展示了我们框架的有效性,如视频分割、姿态跟踪、基于视觉的机器人运动和操作任务等。项目网页提供了代码:this https URL。