ECCVMay, 2019

基于视觉符号图的视频理解表示学习

TL;DR本文提出了一种基于两个图的模型,其中节点对应于演员和物体,边编码不同类型的交互,通过图神经网络在结果混合图上优化演员、物体及其交互的表示,该方法在 Charades 数据集上实现了最先进的效果,用于解决有关视频理解的挑战性任务,如时间动作定位。