May, 2019

视频字幕的时间可变卷积编-解码神经网络

TL;DR本文提出了一种新颖的设计,即TDConvED,它在视频字幕生成中充分利用编码器和解码器网络中的卷积,具有卷积块结构,在编码器中进一步配备时间变形卷积以实现时间采样的自由形变,并利用时间关注机制进行句子生成,在MSVD和MSR-VTT视频字幕生成数据集上进行了广泛实验,在与常规基于RNN的编码器解码器技术进行比较时获得更好的结果。