Aug, 2021

O2NA:一种用于可控视频字幕生成的面向对象非自回归方法

TL;DR本文介绍了一种基于物体的非自回归方法(O2NA)用于视频字幕生成,它包括确定聚焦对象,生成草案字幕,以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤,实验结果表明O2NA在MSR-VTT和MSVD两个基准数据数据集上具有与现有最先进技术相当的结果,但具有更高的多样性和推理速度。