Nov, 2016

通过填空问答了解视频数据的数据集和模型探究

TL;DR本文提出 MovieFIB 数据集,包括超过 300,000 个问题,用于评估针对视频的模型,研究了 5 种不同模型的预测,比较了这些模型与人类表现的差异,并发现在针对视频的任务中,主要是结合了 2D 和 3D 的视觉信息可以提供最佳结果。