Aug, 2023

CoVR:从网络视频字幕中学习组合视频检索

TL;DR通过自动数据集创建方法,我们提出了一个可扩展的 Composed Image Retrieval(CoIR)任务,使用由视频标题对生成的三元组,扩展任务范围到 Composed Video Retrieval(CoVR)。通过在庞大的数据库中挖掘具有相似标题的配对视频,并利用大型语言模型生成相应的修改文本,我们构建了 WebVid-CoVR 数据集,其中包含 1.6 百万个三元组。实验证明,在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR,提高了 CIRR 和 FashionIQ 基准测试中的最新性能。