Jul, 2022

ViGAT: 基于分解图注意力网络的视频自底向上事件识别和解释

TL;DR本文提出了一种纯自注意力自下而上的 ViGAT 方法,该方法将一个物体检测器和 Vision Transformer(ViT)骨架网络结合起来,以推导出视频中的物体和框架特征,然后通过一个头网络处理这些特征以完成事件识别和解释任务。