Mar, 2021

用于视频理解的统一图结构模型

TL;DR本文提出了一种基于信息传递的图神经网络,能够精确理解视频中行为者、对象和环境之间的关系,在显式表示对象时能够使用显式表示,否则使用隐含表示;在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的视频场景图分类等任务中,实现了最先进的结果,我们定量和定性的显示了我们的方法如何更有效地模拟场景中相关实体之间的关系。