基于稀疏相关适配器的高效文本 - 视频检索

ACLMay, 2024

基于稀疏相关适配器的高效文本 - 视频检索

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

Meng Cao, Haoran Tang, Jinfa Huang, Peng Jin, Can Zhang...

TL;DR使用一种称为 RAP 的稀疏且相关的 AdaPter 模型，通过在少数参数化层上进行预训练模型的微调，以提供高效的文本视频检索。RAP 配备了两个必要特征：时间稀疏性和相关性建模。通过引入低秩调制模块和异步自注意力机制，RAP 能够在四个文本视频检索数据集上表现出优越或可比较的性能。

Abstract

text-video retrieval (TVR) aims to align relevant video content with natural language queries. To date, most state-of-the-art TVR methods learn image-to-video transfer learning based on large-scale pre-trained vi

text-video retrieval transfer learning efficient retrieval temporal sparsity correlation modeling

发现论文，激发创造

RaP：红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索

通过测量视频补丁和文本单元的冗余度，我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法，并通过冗余感知对比学习获得了显著的结果提升。

Oct, 2022

冻结图像编码器的细粒度文本 - 视频检索

提出了 CrossTVR，一个两阶段的文本视频检索架构。第一阶段利用现有的文本 - 视频检索方法进行候选选择，第二阶段提出了一个新颖的解耦视频文本交叉注意力模块，以捕捉时空维度中细粒度的多模态信息。通过在细粒度检索中采用冻结的 CLIP 模型策略，可以扩展到更大的预训练视觉模型，如 ViT-G，从而提高检索性能。对文本视频检索数据集进行的实验证明了我们提出的 CrossTVR 相较于最先进的方法的有效性和可扩展性。

Jul, 2023

TeachCLIP: 高效文本到视频检索的多粒度教学

通过多层次教学，利用具有更高性能但计算负荷较大的模型，如 X-CLIP、TS2-Net 和 X-Pool，以及引入注意力框架特征聚合（AFA）块来提高学生网络的学习能力，以实现高效的文本到视频检索。实验结果表明所提出的方法是可行的。

Aug, 2023

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

M2-RAAP：一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性

我们提出了一种名为 M2-RAAP 的多模态配方，用于推进基于适应性预训练的零 - shot 视频文本检索，具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究，我们总结了这项实证研究成果，其中我们的技术贡献包括数据过滤和文本重写流水线、将视频输入改为关键帧以加速预训练、以及辅助字幕引导策略来增强视频特征。通过在两种不同语言的优化视频文本数据集上将三种图像 - 文本基础模型进行适配，进行了大量实验验证了 M2-RAAP 在基于适应性预训练方面的鲁棒性和可重现性。结果表明，M2-RAAP 在显著减少数据量（-90%）和时间消耗（-95%）的同时，取得了优越的性能，为四个英文和两个中文零 - shot 检索数据集建立了新的 SOTA。我们正在准备我们的优化双语数据注释和代码库，将在该 URL 上提供。

Jan, 2024

文本 - 视频检索的跨模态适配器

提出了一种跨模态适配器（Cross-Modal Adapter）方法，对预训练模型进行参数高效微调，可在多模态模型上减少 99.6％的参数、节省 30％的训练时间以及共享预训练模型，在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。

Nov, 2022

部分相关性视频检索

本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务，并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络，以同时学习剪辑尺度和帧尺度下的相似性，并在三个数据集上进行了全面的实验来证明该方法的可行性，还表明该方法可以用于改进视频语料库时刻检索。

Aug, 2022

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

面向文本到视频检索的语义角色感知相关性变换器

该论文提出了一种新型的 Transformer 模型，将文本和视频显式分离，通过注意力机制了解三种角色的内部和内部角色之间的相关性，以在不同级别上寻找识别特征，初步结果表明，在所有的指标中，我们的方法都超过了当前最先进的方法，在两个指标上也超过了两种最先进的方法。

Jun, 2022

VoP: 跨模态检索的文本 - 视频协同提示调整

本文提出 VoP 框架，结合视频和文本提示来提高文本 - 视频检索任务的效率和性能，相比使用 full fine-tuning 更加高效，在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益，并且仅需要 6 倍于 full fine-tuning 的可训练参数

Nov, 2022