Dec, 2021

使用视频和图像联合训练 Transformer 提高动作识别

TL;DR本文探索视频 transformer 的几个训练范式,并提出了一种称为 CoVeR 的方法,通过与图像的共同训练,提高了视频 transformer 的性能,尤其是在动作识别上,取得了最好的结果。