Aug, 2019

利用自然语言在视频时序关系中进行时刻定位

TL;DR本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与细分描述间的相似度和位置相似度,通过 late fusion 方法组合 RGB 和光流两种数据进行训练,实验证明此模型在 TEMPO 数据集上表现优于现有方法。