CVPRDec, 2018

基于实况视频描述

TL;DR该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来,并给出了一个能够利用 bounding box 的词语注释的视频描述模型,其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。