ECCVDec, 2021

DualFormer:面向高效视频识别的分层局部全局 Transformer

TL;DR本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。