May, 2024

全局-局部语义一致学习的文本-视频检索

TL;DR通过提出 Global-Local 语义一致性学习方法,该研究利用文本-视频预训练模型,实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。