CVPRMar, 2020

分层图推理的细粒度视频文本检索

TL;DR提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型,将 video-text matching 分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。