Aug, 2021

使用并行解码技术的端到端稠密视频字幕生成

TL;DR本文提出了一种简单而有效的端到端稠密视频字幕生成框架PDVC,其中通过在transformer decoder的顶部添加事件计数器,将原始视频精确地分割为多个事件片段,并在其基础上进行事件集合预测,从根本上提高了预测字幕的连贯性和可读性。