MMAug, 2020

基于查询的跨模态和自我模态图注意力网络的时刻定位

TL;DR提出了一种基于查询的时刻定位新任务,使用交叉和自我模态图注意力网络 (CSMGAN),通过联合图遍历的迭代消息传递过程将最佳匹配段定位在未裁剪的视频中,描述了跨模态交互图 (CMG) 和自模态关系图 (SMG) 的关系,并通过多层联合图来捕捉两种模态之间的高阶交互,提高了定位的精度。