Nov, 2018

基于语言的时间定位中的活动概念挖掘

TL;DR该研究提出了一种用于在未剪辑的视频中进行基于语言的时间定位的新方法,该方法利用了语言查询和视觉模型之间的语义概念,以及利用活动分类器预测得分编码视觉概念,并且可以对滑动窗口进行回归定位。实验表明,该方法在 Charades-STA 和 TACoS 数据集上的表现显著优于其他方法,提高了 5%以上。