Mar, 2020

基于多级弱监督关注重建网络的视频文本查询锚定

TL;DR本文提出一种基于弱监督学习的多级注意力重建网络(MARN)来实现视频中文本查询的时间定位,该方法又利用注意重建的思想,建立了一个候选时间片段的注意力模型,并利用候选片段和视频句子对进行训练。作者还利用 2D 卷积来提取更可靠的注意力图,并在 Charades-STA 和 ActivityNet-Captions 数据集上进行实验,表明 MARN 优于现有的弱监督方法。