Apr, 2018

使用掩码变换器进行端到端的密集视频字幕生成

TL;DR本研究提出了一种基于Transformer模型的端到端的视频描述生成方法来解决dense video captioning中语言描述与事件提案建立之间的直接联系问题,并通过ActivityNet Captions和YouCookII数据集的实验表明其性能提高。