Aug, 2019

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

TL;DR本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。