IJCAIMay, 2022

GL-RG: 视频字幕生成中的全局与局部表示层级

TL;DR本文提出了一种全局 - 局部表示粒度框架(GL-RG)来生成视频字幕,通过显式利用来自不同视频范围的丰富视觉表示,设计了一个新颖的全局 - 局部编码器来产生丰富的语义词汇,以获得帧间视频内容的描述性粒度,采用增量训练策略组织模型学习,实验结果表明 GL-RG 在 MSR-VTT 和 MSVD 数据集上的性能显著优于最近的最先进方法。