Aug, 2024

QD-VMR:基于上下文理解增强的查询去偏差视频时刻检索

TL;DR本研究解决了视频时刻检索中查询与视频时刻语义对齐不精确的问题。提出的QD-VMR模型通过全球部分对齐模块和查询去偏差模块有效增强了跨模态理解能力,显著提高了检索精度。实验结果表明,该模型在多个基准数据集上实现了最先进的性能,具有良好的推广潜力。