MMAug, 2022

利用显式高层语义提升视频文本检索

TL;DR本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。