Sep, 2021

CONQUER: 视频语料库时刻检索的上下文查询感知排序

TL;DR本文提出一种名为 CONQUER 的模型,通过融合多模态视频内容、进行双向注意力以及完全利用查询上下文等方式实现视频检索任务的精确定位和排序。通过实验发现,将视频和查询在线上联合表示可以更好地捕捉多模态信号来提升检索效果。