May, 2022

GL-RG: 视频字幕生成中的全局与局部表示层级

TL;DR本文提出了一种全局-局部表示粒度框架(GL-RG)来生成视频字幕,通过显式利用来自不同视频范围的丰富视觉表示,设计了一个新颖的全局-局部编码器来产生丰富的语义词汇,以获得帧间视频内容的描述性粒度,采用增量训练策略组织模型学习,实验结果表明GL-RG在MSR-VTT和MSVD数据集上的性能显著优于最近的最先进方法。