Feb, 2021

视频变形网络

TL;DR本文提出了一种基于 Transformer 的视频识别框架 VTN,它相比于传统的 3D ConvNets,通过整个视频序列的注意力机制实现动作分类,并在训练和推断时分别快 16.1 倍和 5.1 倍,同时在 Kinetics-400 数据集上获得了有竞争力的结果,表明了精度和推断速度之间的权衡。