ICCVApr, 2019

端到端视频字幕生成

TL;DR本文提出了采用端到端训练的方法来实现视频描述生成,并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。