CVPRMar, 2020

使用文本数据的强化学习快进视频

TL;DR本文提出一种基于强化学习的方法来加速教学视频,该方法可以自适应地选择不相关的帧以缩小输入视频,同时使用 Visually-guided Document Attention Network(VDAN)产生高度判别的嵌入空间来表示文本和视觉数据,实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。