Jun, 2019
弱监督空时自然句子在视频中的基础
Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video
TL;DR本文提出了一种新型任务,即利用注意力机制对视频中的自然语句进行弱监督的空时地定位,实现视频中与自然语句语义相符的空时地定位,同时引入多样性损失函数来加强可靠的实例-句子配对的匹配行为,并惩罚不可靠的行为,在ImageNet视频对象检测数据集上提供了一个新的基准数据集VID-sentence,并广泛实现了实验结果,表明我们的模型优于基线方法。