ActionCLIP：视频动作识别的新范式

Sep, 2021

ActionCLIP: A New Paradigm for Video Action Recognition

Mengmeng Wang, Jiazheng Xing, Yong Liu

TL;DR本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Abstract

The canonical approach to video action recognition dictates a neural model to do a classic and standard 1-of-N majority vote task. They are trained to predict a fixed set of predefined categories, limiting their transferable ability on new datasets with unseen concepts. In this paper,

action recognition multimodal learning semantic information pre-train, prompt and fine-tune zero-shot recognition

发现论文，激发创造

CLIP 多模态适应用于少样本动作识别

本文提出了一种名为 MA-CLIP 的新方法，旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别，从而解决传统方法中的参数调优和时间建模的问题。

Aug, 2023

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

Aug, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

跨领域开放词汇行为识别中基于 CLIP 的视频学习方法的重新思考

基于 CLIP 的视频学习器在跨领域的开放词汇动作识别任务中表现受限，本文通过建立一个名为 XOV-Action 的跨领域开放词汇动作识别基准以及提出一种新颖的场景感知视频 - 文本对齐方法，来应对这一挑战，实验结果验证了我们方法的有效性。

Mar, 2024

基于对象任务的零样本多标签动作识别中的组合性影响

提出了 Dual-VCLIP 方法，以应对动态环境中机器人在与人类合作的任务中多标签动作识别的挑战，特别是涉及物体的任务。该方法在训练过程中仅学习两个提示，因此比其他方法更简单，通过在 Charades 数据集上验证了其性能，在完整数据集上表现良好，并在未见动作测试上显示出有希望的性能。

May, 2024

利用时间语境进行视频动作识别

TC-CLIP 是一种改进的视觉语言模型，通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

Apr, 2024

利用更好的架构、优化和数据建立开放式词汇视频 CLIP 模型

本研究介绍了 Open-VCLIP++，它是一个简单而有效的框架，通过最小化修改 CLIP 来捕捉视频中的时空关系，从而创建一个专门的视频分类器，同时追求泛化性。通过在训练和测试过程中利用权重插值的优势，我们演示了训练 Open-VCLIP++ 等同于零历史数据的持续学习。此外，我们利用大型语言模型生成了细粒度的视频描述，并与视频特征进行了对齐，从而更好地将 CLIP 应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估，并超过了现有最先进技术的显著水平。我们在 UCF、HMDB 和 Kinetics-600 数据集上分别实现了 88.1%、58.7% 和 81.2% 的零样本准确率，分别比最佳替代方法高出 8.5%、8.2% 和 12.3%。我们还在 MSR-VTT 视频文本检索数据集上进行了评估，结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平，并且相比其他方法使用了更少的微调数据。

Oct, 2023