Feb, 2024

重新思考基于视频学习视觉表示的特征预测

TL;DR该研究探讨了以特征预测作为无监督学习的独立目标,并介绍了 V-JEPA,一个仅使用特征预测目标进行训练的视觉模型集合,无需预训练图像编码器、文本、负样本、重建或其他监督方式。我们的研究结果表明,通过预测视频特征进行学习可以得到性能良好的通用视觉表示,适用于运动和外观相关的任务,无需调整模型参数,如冻结骨干网络。我们最大的模型,即仅使用视频进行训练的 ViT-H/16,在 Kinetics-400 上获得 81.9% 的准确率,在 Something-Something-v2 上获得 72.2% 的准确率,在 ImageNet1K 上获得 77.9% 的准确率。