ICCVDec, 2020

从数百万个叙述视频中学习回答问题

TL;DR本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集,并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明,在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上,该方法明显优于现有技术。