Dec, 2021
使用视频和图像联合训练 Transformer 提高动作识别
Co-training Transformer with Videos and Images Improves Action Recognition
Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai...
TL;DR本文探索视频 transformer 的几个训练范式,并提出了一种称为 CoVeR 的方法,通过与图像的共同训练,提高了视频 transformer 的性能,尤其是在动作识别上,取得了最好的结果。