Oct, 2022

自监督视频预训练产生强大的图像表示

TL;DR提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与ImageNet预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默认方法。