Jan, 2022
视频 Transformer: 综述
Video Transformers: A Survey
Javier Selva, Anders S. Johansen, Sergio Escalera, Kamal Nasrollahi, Thomas B. Moeslund...
TL;DR该研究调查了 Transformer 模型在建模视频方面的使用,并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态,探索了有效的自监督学习策略,表明在视频的行动分类基准测试中,与 3D ConvNets 相比,它们具有更低的计算复杂度。