ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索

Aug, 2023

ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索

ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition

Soumyabrata Chaudhuri, Saumik Bhattacharya

TL;DR本研究提出了首个基于姿势增强的视觉语言模型（VLM）用于视频动作识别，该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率，在动态学习预训练后准确率分别达到 96.11% 和 75.75%。

Abstract

video action recognition (VAR) is a challenging task due to its inherent complexities. Though different approaches have been explored in the literature, designing a unified framework to recognize a large number of human actions is still a challenging problem. Recently, →

video action recognition multi-modal learning 2d skeleton vision-language model human video action recognition

发现论文，激发创造

通过对比视图不变表示进行跨视图动作识别

提出了一种简单高效的跨视角动作识别（CVAR）框架，能够从 RGB 视频、3D 骨架数据或两者学习不变特征。在 N-UCLA、NTU-RGB+D 60、NTU-RGB+D 120 和 UWA3DII 数据集上，该方法表现出优异的性能，分别达到了 99.4％（RGB）、99.9％（3D 骨架）

May, 2023

跨越语言、视觉和行动：多模态 VAEs 在机器人操作任务中的应用

我们关注机器人操作中无监督的视觉 - 语言 - 行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Apr, 2024

利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

本文介绍了一个名叫 BIKE 的，通过使用视频和文本之间的跨模态桥梁，通过视频设置自动补充的文字辅助属性，和通过文本确定带有时间明显性的位置，以增强视频表示，从而有效提高各种识别情景下的视频识别性能的创新框架。在六个流行的视频数据集中进行的广泛研究表明，我们的方法在各种识别方案中均实现了最先进的性能。

Dec, 2022

应用 VLM 辅助训练提升视频变换器的动作理解能力

提出了一种利用 Vision Transformers（ViTs）和 Visual Language Models（VLMs）之间的互补优势的 Four-tiered Prompts（FTP）框架，通过改进视觉编码并对齐 VLM 输出，从而实现对视频中人类行为的具体方面的处理，对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率，超过 VideoMAEv2 分别 2.8% 和 2.6%。

Mar, 2024

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

ViLPAct: 多模态人体活动组合泛化基准测试

介绍了 ViLPAct，这是一个视觉 - 语言基准，用于人类活动计划。数据集包括 2.9k 视频，通过众包方式扩展了人的意图。据我们的广泛实验表明，主要的挑战是组合泛化和有效利用两种模态的信息。

Oct, 2022

协作自监督视频表示学习用于动作识别

通过联合生成姿势预测和区分性上下文匹配的方式，我们设计了一种专用于动作识别的协同自监督视频表示学习框架（CSVR），其中包括三个支路：生成姿势预测支路、区分性上下文匹配支路和视频生成支路。这种方法在 UCF101 和 HMDB51 数据集上取得了最先进的性能。

Jan, 2024

不需重训练的扩展冻结视觉 - 语言模型：朝着改进机器人感知能力迈进

通过对齐不同类型嵌入空间的方法，本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果，从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。

Aug, 2023

视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类，这需要大量的预定义动作类别注释；而基于自监督学习的方法涉及预处理任务中的骨架变换，可能会损害骨架结构。为了解决这些挑战，我们引入了一种新颖的基于骨骼的训练框架（C$^2$VL），基于跨模态对比学习，使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。

May, 2024

预训练语言模型作为人类辅助的视觉规划器

本研究提出了『Visual Planning for Assistance (VPA)』的任务，通过视频中的行动段落和预测，使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系，从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。

Apr, 2023