TL;DR通过具有层级结构的图神经网络和注意力机制,提出了一个对于同一身份和不同身份之间的长期关系建模以及身份感知的研究,以显式地突出演员的身份信息,并在 AVA 数据集上获得了最先进的结果。
Abstract
action detection plays an important role in high-level video understanding
and media interpretation. Many existing studies fulfill this spatio-temporal
localization by modeling the context, capturing the relation