Jan, 2022

视频 Transformer: 综述

TL;DR该研究调查了 Transformer 模型在建模视频方面的使用,并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态,探索了有效的自监督学习策略,表明在视频的行动分类基准测试中,与 3D ConvNets 相比,它们具有更低的计算复杂度。