Dec, 2018

视频中弱监督稠密事件字幕生成

TL;DR本文提出一个无需时间片段注释的方法:针对视频中所有感兴趣事件的稠密描述,基于一一对应的假设,将该问题分解为事件字幕和句子定位的双重问题,并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。