Nov, 2016
通过填空问答了解视频数据的数据集和模型探究
A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering
Tegan Maharaj, Nicolas Ballas, Anna Rohrbach, Aaron Courville, Christopher Pal
TL;DR本文提出 MovieFIB 数据集,包括超过 300,000 个问题,用于评估针对视频的模型,研究了 5 种不同模型的预测,比较了这些模型与人类表现的差异,并发现在针对视频的任务中,主要是结合了 2D 和 3D 的视觉信息可以提供最佳结果。