Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

CVPRApr, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting

Syed Talal Wasim, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah

TL;DR本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Abstract

Adopting contrastive image-text pretrained models like clip towards video classification has gained attention due to its cost-effectiveness and competitive performance. However, recent works in this area face a trade-off. Finetuning the pretrained model to achieve strong supervised per

clip video classification prompt learning supervised learning zero-shot learning

发现论文，激发创造

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Aug, 2023

多模式提示下的零备和少备视频问答

近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Sep, 2023

VideoCLIP：用于零样本视频文本理解的对比预训练

本文提出了 VideoCLIP，这是一种对比学习方法，用于在没有下游任务的标签情况下，预训练用于零样本视频和文本理解的统一模型。我们的实验表明，这种方法在一系列下游任务中的表现最优，超越了之前的工作，并在某些情况下甚至优于有监督方法。

Sep, 2021

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

Aug, 2023

语义残差指令用于持续学习

通过在 Continual Learning 中引入 Prompt-tuning 方法，以更稳定的选择策略和适应机制，提出了一种能够优于最先进的方法的新模型，即使在与预训练模型存在显著领域差异的数据集上也适用。

Mar, 2024