CVPRJun, 2020

2020 VATEX 视频字幕挑战赛 NITS-VC 系统

TL;DR本文介绍了用于视频字幕挑战的框架,采用编码器 - 解码器的方法,其中使用 3D 卷积神经网络对视频进行编码,并使用两个 LSTM 递归网络进行解码,最终输出是两个 LSTM 的输出元素乘积,而此模型可以在公共和私人测试数据集上实现 BLEU 得分分别为 0.20 和 0.22。