ICCVNov, 2020

VLG-Net: 视频语言图匹配网络用于视频 grounding

TL;DR本文提出了使用图神经网络来进行视频和文本信息的语义对齐,以识别语言查询相关的时间间隔,解决这个挑战性任务的关键是将其转化为一个基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合,使用视频 - 语言图匹配网络(VLG-Net)匹配视频和查询图,并使用掩码时刻注意力池将时刻候选项通过融合富有效果的片段特征进行生成。在 ActivityNet-Captions,TACoS 和 DiDeMo 三个常用数据集上,我们在带有语言查询的视频瞬间的时间本地化方面展示了优于现有技术水平的性能。