Nov, 2015

揭示视频问答的时间背景

TL;DR本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。