CVPRDec, 2021

自监督视频 Transformer

TL;DR本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图,实现了视频内 actions 的时空不变性,并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集(Kinetics-400,UCF-101,HMDB-51 和 SSv2)上表现出色,并能够在小批量的情况下更快地收敛。