ICCVApr, 2021

VidTr: 不使用卷积的视频 Transformer

TL;DR通过可分离的注意力机制,利用堆叠的注意力聚合时空信息,高效地实现了视频分类、时空建模以及长期时间推理,并通过优化模型提高了模型效率与性能。