Aug, 2017

自然语言视频时刻定位

TL;DR通过提出Moment Context Network来定位自然语言查询中的视频段,并通过构建Distinct Describable Moments数据集实现对局部视屏段的描述。