CVPRAug, 2020

时空对比视频表征学习

TL;DR本文引入了一种基于对比损失的自监督对比视频表示学习方法,利用在嵌入空间中相同短视频的两个增强剪辑进行学习,同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识,在 Kinetics-600 数据集上,该方法可以超过 ImageNet 和 SimCLR 的性能,达到 70.4% 的 top-1 准确率