ACLDec, 2014

使用深度递归神经网络将视频翻译为自然语言

TL;DR本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法,并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量,主语,动词和宾语预测准确度以及人的评估进行比较,证明本方法的有效性。