EZ-CLIP：高效零样本视频行为识别

Dec, 2023

EZ-CLIP: Efficient Zeroshot Video Action Recognition

Shahzad Ahmad, Sukalpa Chanda, Yogesh S Rawat

TL;DREZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Abstract

Recent advancements in large-scale pre-training of visual-language models on paired image-text data have demonstrated impressive generalization capabilities for zero-shot tasks. Building on this success, efforts have been made to adapt these image-based →

visual-language models clip zero-shot learning video domain temporal adaptation

发现论文，激发创造

EventCLIP：针对事件的对象识别的 CLIP 适应

本研究提出了一种新的方法：EventCLIP，利用 2D zero-shot recognition 和 few-shot learning 来识别 event camera data，并且使用 temporal feature adapter 来提高模型性能。通过实验证明，EventCLIP 在不同数据集上表现出 state-of-the-art performance，并且能够提高现有的 event-based classifiers 对数据变化的鲁棒性。

Jun, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

利用更好的架构、优化和数据建立开放式词汇视频 CLIP 模型

本研究介绍了 Open-VCLIP++，它是一个简单而有效的框架，通过最小化修改 CLIP 来捕捉视频中的时空关系，从而创建一个专门的视频分类器，同时追求泛化性。通过在训练和测试过程中利用权重插值的优势，我们演示了训练 Open-VCLIP++ 等同于零历史数据的持续学习。此外，我们利用大型语言模型生成了细粒度的视频描述，并与视频特征进行了对齐，从而更好地将 CLIP 应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估，并超过了现有最先进技术的显著水平。我们在 UCF、HMDB 和 Kinetics-600 数据集上分别实现了 88.1%、58.7% 和 81.2% 的零样本准确率，分别比最佳替代方法高出 8.5%、8.2% 和 12.3%。我们还在 MSR-VTT 视频文本检索数据集上进行了评估，结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平，并且相比其他方法使用了更少的微调数据。

Oct, 2023

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

Aug, 2023

CLIP 多模态适应用于少样本动作识别

本文提出了一种名为 MA-CLIP 的新方法，旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别，从而解决传统方法中的参数调优和时间建模的问题。

Aug, 2023

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022

E-CLIP: 通过 CLIP 实现高效标签的事件驱动开放式理解

提出了一种名为 E-CLIP 的框架，它通过引入新颖的事件编码器和文本编码器，以及原始图像编码器，采用层次三重对比对齐 (HTCA) 模块来优化相关性，实现三种模态之间的知识传递，并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外，E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。

Aug, 2023