ACLApr, 2019

使用自然语言描述实现提取式视频剪辑定位

TL;DR该文章提出了一种新的、能够利用文本和视频间的交互,预测起始和结束帧的提取方法,以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示,该方法在多项实验和去除分析中表现显著,比现有技术提升了性能。