CVPRMay, 2021

SSAN: 可分离自注意力网络用于视频表示学习

TL;DR该论文提出了一种分离的自注意力模块 (SSA),通过分别建模空间和时间相关性,有效地将空间上下文信息用于时间建模,将该模块添加到 2D CNN 中形成 SSAN,用于视频表示学习,在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法,在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。