Mar, 2018

精益求精:选择信息量丰富的视频帧进行视频字幕生成

TL;DR提出了一种基于强化学习的编码器 - 解码器框架下的 PickNet 模型,用于在视频字幕任务中选择关键帧以提升性能,该模型最终选择的少量帧能够高质量的代表整个视频序列,更具视觉多样性与文本一致性。