ICCVAug, 2019

基于门控融合网络和 POS 序列指导的可控视频字幕生成

TL;DR本文提出了一种基于 Part-of-Speech 信息引导视频字幕生成的方法,通过多个输入视频表示的门控融合,构建了一种新颖的门控融合网络,其中一个特别设计的交叉门控块可以有效地编码和融合不同类型的表示,结果显示该模型可充分利用多种表示的互补信息,提高了性能。