ICMLFeb, 2021
空时注意力是否足以理解视频?
Is Space-Time Attention All You Need for Video Understanding?
Gedas Bertasius, Heng Wang, Lorenzo Torresani
TL;DR该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.