CoVR：从网络视频字幕中学习组合视频检索

Aug, 2023

CoVR：从网络视频字幕中学习组合视频检索

CoVR: Learning Composed Video Retrieval from Web Video Captions

Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

TL;DR通过自动数据集创建方法，我们提出了一个可扩展的 Composed Image Retrieval（CoIR）任务，使用由视频标题对生成的三元组，扩展任务范围到 Composed Video Retrieval（CoVR）。通过在庞大的数据库中挖掘具有相似标题的配对视频，并利用大型语言模型生成相应的修改文本，我们构建了 WebVid-CoVR 数据集，其中包含 1.6 百万个三元组。实验证明，在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR，提高了 CIRR 和 FashionIQ 基准测试中的最新性能。

Abstract

composed image retrieval (CoIR) has recently gained popularity as a task that considers both text and image queries together, to search for relevant images in a database. Most CoIR approaches require manually annotated datasets, comprising image-text-image triplets, where the text desc

composed image retrieval automatic dataset creation covr webvid-covr dataset zero-shot setup

发现论文，激发创造

通过丰富的上下文和区分特征嵌入检索拼接视频

使用详细的语言描述来显式编码特定查询背景信息和学习视觉、文本和视觉文本的判别嵌入，以更准确地检索匹配的目标视频的新型 CoVR 框架。

Mar, 2024

零样本组合文本 - 图像检索

本文介绍了一个新方法，通过多模态信息的融合来准确地检索符合查询的图像，并在零样本场景下，在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。

Jun, 2023

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集 TextVR，它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

基于视觉和语言的无需训练的组合图像检索

通过使用大规模视觉语言模型（VLMs）和大型语言模型（LLMs）并基于文本目标修改对参考图像进行标题化，然后通过 CLIP 进行检索，我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法，以训练免费的方式解决 CIR 问题，并取得了与有监督的方法相竞争的性能。

Oct, 2023

零样本组合图像检索与文本倒置

本文提出了一种不需要标记的数据集来解决 CIR 问题的新方法 Zero-Shot CIR，并介绍了一个基于视觉特征和文本描述的 SEARLE 方法，同时提出了一个名为 CIRCO 的真实场景数据集，实验表明 SEARLE 在 CIRCO 数据集上的表现优于基线方法。

Mar, 2023

COVR：基于真实图像的视觉组合推理测试平台

本文提出了 COVR，一个用于基于真实图像的组合通用化的新测试平台并使用基于场景图注释的实际图像和提出几乎完全自动的生成问题答案对以及相关 (场景) 图像集的过程来创建。由于自动生成过程，COVR 便于组合划分的生成，模型可以在测试时间零或少量训练数据的情况下进行新概念和组合的通用化。我们使用 COVR 构建了组合划分，并演示了许多情况，其中最先进的预训练语言和视觉模型难以进行组合通用化。

Sep, 2021

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

使用预训练的视觉语言模型在现实生活图像上进行图像检索

本研究提出了一个基于 Transformers 的模型 CIRPLANT，使用人类自然语言条件进行直观特征的修改，并结合最近邻方法实现图像的检索，实验结果表明该模型在开放域图像检索中具有很好的性能。

Aug, 2021

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型

我们提出了一个新的任务和人类标注的数据集，用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力，该数据集包含了 4800 个 YouTube 视频剪辑，时长在 20-60 秒之间，涵盖了广泛的主题和兴趣，对于视觉和听觉内容都进行了基于摘要的检索任务和基于标题和摘要的生成任务的评估，并提出了一个基础模型作为 Video-CSR 任务的基准，旨在成为大型语言模型和复杂多模态任务时代的有用评估集。

Oct, 2023