Dec, 2019
自然语言时序相邻网络学习用于时刻定位
Learning 2D Temporal Adjacent Networks for Moment Localization with
Natural Language
TL;DR本文提出了一个基于2D时间映射的Temporal Adjacent Network(2D-TAN)框架,用于在未修剪的视频中匹配与查询句子相关的特定时间点,该框架可以编码相邻的时间关系,并学习具有区分性的特征以提高活动识别的准确性,通过在Charades-STA,ActivityNet Captions和TACoS等数据集上的表现,证明了该方法的优越性。