Apr, 2018

密集视频字幕生成中的事件定位与描述

TL;DR本文提出了一种新的密集视频字幕生成框架,该框架将时间上的事件提案的本地化和生成句子主体的合并,通过端到端的联合训练结构。这种模型在ActivityNet Captions数据集上的实验显示出了与现有技术相比的明显改进,创造了12.96%的新的METEOR记录。