M2-CLIP: 视频动作识别的多模态多任务自适应框架

Jan, 2024

M2-CLIP: 视频动作识别的多模态多任务自适应框架

M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei...

TL;DR该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Abstract

Recently, the rise of large-scale vision-language pretrained models like CLIP, coupled with the technology of parameter-efficient finetuning (PEFT), has captured substantial attraction in video action recognition

large-scale vision-language pretrained models parameter-efficient finetuning multimodal, multi-task clip multimodal adapters multi-task decoder

发现论文，激发创造

CLIP 多模态适应用于少样本动作识别

本文提出了一种名为 MA-CLIP 的新方法，旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别，从而解决传统方法中的参数调优和时间建模的问题。

Aug, 2023

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

Aug, 2023

CLIPTrans：基于预训练模型的多模态机器翻译中的视觉知识迁移

本研究提出了 CLIPTrans 框架，通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型，使它们的嵌入空间对齐，并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点，并将标准基准提升了平均 2.67 个 BLEU 值。

Aug, 2023

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

DialCLIP: 增强 CLIP 作为多模态对话检索器

提出了一种名为 DialCLIP 的参数高效的提示调整方法，用于多模态对话检索，通过仅调整总参数的 0.04％实现了在两个广泛认可的基准数据集上的最新性能，突出了该方法的功效和效率，强调其推动多模态对话检索领域发展的潜力。

Jan, 2024

基于 CLIP 的从 PEFT 梯度的图像重建

通过理论分析，本文提出了一种基于 CLIP 模型的多模态分布式机器学习架构下的重构攻击方法 Multm-In-Parvo (MIP)，该方法可以根据软提示或适配器的梯度有效地重构 CLIP 模型的训练图像。

Feb, 2024

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021