ICCVAug, 2017

自然语言视频时刻定位

TL;DR通过提出 Moment Context Network 来定位自然语言查询中的视频段,并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。