CVPROct, 2016

视频字幕、检索和问答的端到端概念词检测

TL;DR本文提出了一种高级概念词探测器,可以与任何语言生成模型集成。它以视频为输入,并生成一个概念词清单作为语言生成模型的有用语义先验。所提出的词探测器有两个重要特征。它不需要任何外部知识源进行训练;它可以与任何视频到语言模型联合进行端对端的训练。为了最大化检测到的词的价值,我们还开发了一种语义关注机制,它有选择性地聚焦于检测到的概念词,并将它们与语言模型中的词编码和译码融合。为了证明所提出的方法确实改善了多个视频到语言任务的性能,我们参与了 LSMDC 2016 的四个任务。我们的方法在其中三个任务中实现了最佳准确度,包括填空、多项选择测试和电影检索。我们还获得了其他任务(电影描述)的可比性能。