Jun, 2019

弱监督空时自然句子在视频中的基础

TL;DR本文提出了一种新型任务,即利用注意力机制对视频中的自然语句进行弱监督的空时地定位,实现视频中与自然语句语义相符的空时地定位,同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为,并惩罚不可靠的行为,在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence,并广泛实现了实验结果,表明我们的模型优于基线方法。