Mar, 2020

分层图推理的细粒度视频文本检索

TL;DR提出一种基于Hierarchical Graph Reasoning (HGR)的模型,将video-text matching分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的video-text层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。