May, 2024

基于大型语言模型的上下文增强视频片段检索

TL;DR通过引入大型语言模型(LLMs)的广泛知识,我们提出了一种大型语言模型引导的时刻检索(LMR)方法,以改善视频上下文表示和跨模态对齐,从而实现准确的目标时刻定位。