Nov, 2021

关系自注意力:视频理解中注意力缺少的部分

TL;DR本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA),用于视频理解。通过实验和消融研究,证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。