Jun, 2020

利用视觉语义推理进行视频-文本检索

TL;DR为了提高视频检索的性能,我们提出了一种名为ViSERN的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。