AAAIDec, 2019

自然语言时序相邻网络学习用于时刻定位

TL;DR本文提出了一个基于 2D 时间映射的 Temporal Adjacent Network(2D-TAN)框架,用于在未修剪的视频中匹配与查询句子相关的特定时间点,该框架可以编码相邻的时间关系,并学习具有区分性的特征以提高活动识别的准确性,通过在 Charades-STA,ActivityNet Captions 和 TACoS 等数据集上的表现,证明了该方法的优越性。