May, 2016

电影描述

TL;DR本文提出了一个新的数据集,用于从音频注释中生成视频描述。该数据集包含 118,114 个句子和来自 202 部电影的视频剪辑。对比于脚本描述,我们发现 Audio Description 更加直观且准确的描述了电影中所呈现的内容。此外,我们呈现和比较了几个参加 “理解视频和大规模电影描述挑战” 的团队的结果,该挑战在 ICCV 2015 中举行。