Dec, 2019

自然语言时序相邻网络学习用于时刻定位

TL;DR本文提出了一个基于2D时间映射的Temporal Adjacent Network(2D-TAN)框架,用于在未修剪的视频中匹配与查询句子相关的特定时间点,该框架可以编码相邻的时间关系,并学习具有区分性的特征以提高活动识别的准确性,通过在Charades-STA,ActivityNet Captions和TACoS等数据集上的表现,证明了该方法的优越性。