ECCVDec, 2021
DualFormer:面向高效视频识别的分层局部全局 Transformer
DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition
Yuxuan Liang, Pan Zhou, Roger Zimmermann, Shuicheng Yan
TL;DR本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。