Mar, 2018

视频字幕重构网络

TL;DR本文提出了一种重构网络(RecNet)的架构,该网络利用正反两个方向的流动来进行视频字幕生成,其编码器-解码器使用正向流产生编码视频语义特征的句子描述,两种类型的重构器则用于回溯流程并重新生成与解码器生成的隐藏状态序列基于的视频特征。实验结果表明,所提出的重构器网络能够提高编码器-解码器模型的性能,并显著提高视频字幕准确性。