ICCVOct, 2019

将时间和空间注意力融合在 VATEX 视频字幕挑战 2019 中

TL;DR该论文提出了一种用于视频字幕生成的模型,该模型在时间和空间上均考虑了注意力机制,并通过后期融合策略将这两种机制结合起来,从而显著提高了生成字幕的性能,达到了 73.4 的 CIDEr 得分,并在 VATEX 视频字幕生成挑战赛上获得第二名。