CLIP 多模态适应用于少样本动作识别

Aug, 2023

CLIP 多模态适应用于少样本动作识别

Multimodal Adaptation of CLIP for Few-Shot Action Recognition

Jiazheng Xing, Mengmeng Wang, Xiaojun Hou, Guang Dai, Jingdong Wang...

TL;DR本文提出了一种名为 MA-CLIP 的新方法，旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别，从而解决传统方法中的参数调优和时间建模的问题。

Abstract

Applying large-scale pre-trained visual models like CLIP to few-shot action recognition tasks can benefit performance and efficiency. Utilizing the "pre-training, fine-tuning" paradigm makes it possible to avoid training a network from scratch, which can be time-consuming and resource-

few-shot action recognition pre-trained visual models ma-clip spatiotemporal modeling temporal alignment metric

发现论文，激发创造

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

Aug, 2023

Tip-Adapter: 无需训练的适应 CLIP 用于少样本分类

本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter，来有效地增强 Contrastive Vision-Language Pre-training（CLIP）的适应能力，为少样本学习提供了一个计算资源高效的选择。实验证明，Tip-Adapter 在 11 个数据集上均有突出表现，并可以通过少量的模型微调达到 ImageNet 上的最优。

Jul, 2022

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

元适配器：一个用于视觉 - 语言模型的在线少样本学习者

提出了 Meta-Adapter 方法，它是一种轻量级的残差式适配器，通过在线学习利用少量样本来优化 CLIP 特征，从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力，并取得了竞争性的性能和高效率。

Nov, 2023

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022

多模态基础模型的小样本自适应：综述

多模态模型的少样本适应方法在医学成像等领域仍有待提高，研究者提出了基于提示、适配器和外部知识的三种技术方法，本论文对这些方法进行了综述及对比，并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。

Jan, 2024

EventCLIP：针对事件的对象识别的 CLIP 适应

本研究提出了一种新的方法：EventCLIP，利用 2D zero-shot recognition 和 few-shot learning 来识别 event camera data，并且使用 temporal feature adapter 来提高模型性能。通过实验证明，EventCLIP 在不同数据集上表现出 state-of-the-art performance，并且能够提高现有的 event-based classifiers 对数据变化的鲁棒性。

Jun, 2023