CVPRMar, 2024

通过丰富的上下文和区分特征嵌入检索拼接视频

TL;DR使用详细的语言描述来显式编码特定查询背景信息和学习视觉、文本和视觉文本的判别嵌入,以更准确地检索匹配的目标视频的新型 CoVR 框架。