Nov, 2023

视频表示学习中基于相关性引导的查询依赖校准用于时间标定

TL;DR设计了一种基于相关性引导的检测变换器(CG-DETR),通过自适应的交叉关注层、推断视频剪辑和单词之间的细粒度相关性以及视频剪辑的文本参与度,对视频和文本查询之间的模态差距进行强大的跨模态交互,提高了瞬间检索和精彩时刻检测的性能。