CVPRDec, 2018

多句视频描述的对抗性推理

TL;DR本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述,并提出一个多鉴别器 “混合” 设计,其中每个鉴别器针对说明书的一个方面,以评估三个标准:与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 ActivityNet 字幕数据集进行的自动化以及人工评估表明,能够产生更准确、多样和连贯的多句子视频说明。