Jun, 2019

视频中基于查询的时刻检索的跨模态交互网络

TL;DR本文提出一种新颖的交叉模态交互网络 (CMIN),通过语法图卷积网络,多头自注意力和多阶段跨模态交互,综合考虑语言查询的句法结构、视频上下文语义依赖关系和跨模态交互,提高了视频检索准确性。