Jun, 2021
视频 Transformer 的时空混合注意力
Space-time Mixing Attention for Video Transformer
Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudhakaran, Brais Martinez, Georgios Tzimiropoulos
TL;DR本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。