BriefGPT.xyz
Aug, 2020
视频问答的位置感知图卷积网络
Location-aware Graph Convolutional Networks for Video Question Answering
HTML
PDF
Deng Huang, Peihao Chen, Runhao Zeng, Qing Du, Mingkui Tan...
TL;DR
本文提出了一种基于图卷积和位置感知的方法,通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系,提取动作的类别和时间位置。在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上得出的实验表明该方法优于现有的方法。
Abstract
We addressed the challenging task of
video question answering
, which requires machines to answer questions about videos in a natural language form. Previous state-of-the-art methods attempt to apply spatio-temporal
atte
→