MMAug, 2021

视频字幕的判别性潜在语义图

TL;DR该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题,包括融合时空信息增强物体建议、动态提取高语义级别的视觉词,以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。