Aug, 2020

视频问答的位置感知图卷积网络

TL;DR本文提出了一种基于图卷积和位置感知的方法,通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系,提取动作的类别和时间位置。在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上得出的实验表明该方法优于现有的方法。