VoP: 跨模态检索的文本 - 视频协同提示调整

CVPRNov, 2022

VoP: 跨模态检索的文本 - 视频协同提示调整

VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv...

TL;DR本文提出 VoP 框架，结合视频和文本提示来提高文本 - 视频检索任务的效率和性能，相比使用 full fine-tuning 更加高效，在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益，并且仅需要 6 倍于 full fine-tuning 的可训练参数

Abstract

Many recent studies leverage the pre-trained clip for text-video cross-modal retrieval by tuning the backbone with additional heavy modules, which not only brings huge computational burdens with much more parameters, but also leads to the knowledge forgetting from upstream models. In t

clip text-video retrieval vop trainable parameters spatio-temporal characteristics

发现论文，激发创造

DGL: 文本 - 视频检索的动态全局 - 局部提示调优

我们提出了一个跨模态的动态提示调整方法，使用全局 - 局部注意机制对视频进行建模，通过仅调整 0.67％的参数，我们的方法在 MSR-VTT，VATEX，LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。

Jan, 2024

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

使用实体提示进行语言及视频预训练

本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt，通过提出视频 - 文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域 - 实体对齐，与以前的方法相比取得了显着性能提升。

Dec, 2021

TAI++：基于共同学习的可迁移提示的多标签图像分类中的文本作为图像

该研究论文提出了一种使用伪视觉提示的模块来改进多标签图像分类的性能，通过将伪视觉提示与文本提示结合，增强它们的视觉表示能力，并在多个数据集上展示了超过现有方法的性能提升。

May, 2024

文本 - 视频检索的跨模态适配器

提出了一种跨模态适配器（Cross-Modal Adapter）方法，对预训练模型进行参数高效微调，可在多模态模型上减少 99.6％的参数、节省 30％的训练时间以及共享预训练模型，在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。

Nov, 2022

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

重访视觉调优的能量与提示

通过关键参数的优化和初始化，我们提出了一种改进的视觉提示调整方法，用于优化预训练模型在下游任务中的性能表现，并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。

Feb, 2024

LocVTP: 视频文本预训练用于时间定位

本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP，通过精细对比对齐和上下文感知等机制，提高了其学到的特征的时空推理能力和传递性，实现了在四个下游任务上的最优表现。

Jul, 2022