Jun, 2021

视频Transformer的长短时对比学习

TL;DR本文提出了一种叫做“长短时对比学习(LSTCL)”的学习程序,可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时,学习一个有效的剪辑级表示,并在多项视频基准测试上取得了有竞争力的表现,成为有监督基于图像的预训练的有力替代方案。