生成用于开放词汇视频动作识别的动作条件提示

Dec, 2023

生成用于开放词汇视频动作识别的动作条件提示

Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition

Chengyou Jia, Minnan Luo, Xiaojun Chang, Zhuohang Dang, Mingfei Han...

TL;DR通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Abstract

Exploring open-vocabulary video action recognition is a promising venture, which aims to recognize previously unseen actions within any arbitrary set of categories. Existing methods typically adapt pretrained image-text

open-vocabulary video action recognition pretrained image-text models visual embeddings temporal information large language models (llms)

发现论文，激发创造

Bridge-Prompt: 论说明视频中的序数动作理解

本文提出了基于 Bridge-Prompt（Br-Prompt）的框架，使用文本提示来模拟相邻行为之间的语义，并通过对比方法共同训练文本编码器和视频编码器。Br-Prompt 在几个视频数据集上均取得了最先进的成果。

Mar, 2022

Videoprompter: 零 - shot 视频理解的一组基础模型

本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架，在零样本设置中引入了两个关键改进，提高了视觉 - 语言模型的性能，并在视频理解方面展示了一致的改进。

Oct, 2023

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

OST: 优化时空描述符提升通用视频识别中的文本知识

通过将大型语言模型应用于视频领域，进行语义空间的优化，从而改善图像 - 语言模型在视频数据上的性能限制，并提高视频识别的准确性。

Nov, 2023

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

动作识别的 Prompt 学习

本文提出了一种基于 Prompt Learning 的 Action Recognition 新方法 PLAR，表现优于先前方法，包括通过光流、大型视觉模型和可学习提示等改进识别性能，模型通过共享相同的目标，同时优化引导模型预测的提示和输入不变（prompt experts pool）和输入特异性（data-dependent）提示知识。在场景为多代理人和单代理人的数据集上进行了评估，得出实用结果并计划在 WWW 上发布代码。

May, 2023

跨领域开放词汇行为识别中基于 CLIP 的视频学习方法的重新思考

基于 CLIP 的视频学习器在跨领域的开放词汇动作识别任务中表现受限，本文通过建立一个名为 XOV-Action 的跨领域开放词汇动作识别基准以及提出一种新颖的场景感知视频 - 文本对齐方法，来应对这一挑战，实验结果验证了我们方法的有效性。

Mar, 2024

应用 VLM 辅助训练提升视频变换器的动作理解能力

提出了一种利用 Vision Transformers（ViTs）和 Visual Language Models（VLMs）之间的互补优势的 Four-tiered Prompts（FTP）框架，通过改进视觉编码并对齐 VLM 输出，从而实现对视频中人类行为的具体方面的处理，对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率，超过 VideoMAEv2 分别 2.8% 和 2.6%。

Mar, 2024