AAAINov, 2019

非自回归式的粗到细视频字幕

TL;DR本文提出了一种非自回归解码的模型,使用基于双向自注意力的语言模型来加速推理,生成视频字幕的过程分为两个阶段,通过迭代的修改,得到高质量的细致视频描述,大量实验表明该方法达到了最先进的性能,并获得了高推理效率。