MMJul, 2022

视频问答的等变性和不变性基础

TL;DR视频问答是回答关于视频的自然语言问题的任务。本文提出了一种自我解释的框架 EIGV,通过同时强制性地处理问题关键线索和忽略问题不相关的信息,将问题的答案与环境信息区分开来,明确呈现出视频和语言之间的相互作用,并且在三个基准数据集上进行的广泛实验证明了 EIGV 的优越性。