EMNLPOct, 2021

面向时间语言对接的关系感知视频阅读理解

TL;DR本文提出了一种使用选择 - 查询交互和选择 - 选择关系构建解决视频阅读理解中的时间语言接地问题的框架,并引入了一种新颖的多选择关系构造器,通过利用图卷积捕获最佳选择的视频时刻之间的依赖关系,并在 ActivityNet-Captions、TACoS 和 Charades-STA 数据集上进行了广泛的实验证明了我们的方法的有效性。