CVPRMar, 2024
通过丰富的上下文和区分特征嵌入检索拼接视频
Composed Video Retrieval via Enriched Context and Discriminative Embeddings
Omkar Thawakar, Muzammal Naseer, Rao Muhammad Anwer, Salman Khan, Michael Felsberg...
TL;DR使用详细的语言描述来显式编码特定查询背景信息和学习视觉、文本和视觉文本的判别嵌入,以更准确地检索匹配的目标视频的新型 CoVR 框架。