Oct, 2019

知识型视频问答:回答基于知识的问题

TL;DR本研究提出了一种新颖的视频理解任务方法,将基于知识的问题回答融合进来,提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对),该数据集融合了视觉、文本和时间的连贯思维,同时也需要观看该系列影片的体验知识才能回答基于知识的问题。其次,本文提出了一种能够将视觉和文本视频内容与与剧集相关的具体知识相结合的视频理解模型。主要发现是:(i)融入知识可在视频问答方面产生卓越的改进;(ii)关于现有视频建模的局限性,表明 “KnowIT VQA” 仍远远落后于人类的准确度,因此具有较高的研究价值。