ACLApr, 2019

TVQA+: 视频问答的时空引用

TL;DR该研究针对视频问答这一任务,提出增加 bounding boxes 数据集,以此为基础构建了 STAGE 框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。