ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索
提出了一种简单高效的跨视角动作识别(CVAR)框架,能够从 RGB 视频、3D 骨架数据或两者学习不变特征。在 N-UCLA、NTU-RGB+D 60、NTU-RGB+D 120 和 UWA3DII 数据集上,该方法表现出优异的性能,分别达到了 99.4%(RGB)、99.9%(3D 骨架)
May, 2023
我们关注机器人操作中无监督的视觉 - 语言 - 行为映射,探索多模态变分自编码器在无监督机器人操作任务中的应用,并提出一种模型不变训练方法,成功提高模型在模拟环境中的性能,并对个体任务的挑战进行了系统评估,揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。
Apr, 2024
本文介绍了一个名叫 BIKE 的,通过使用视频和文本之间的跨模态桥梁,通过视频设置自动补充的文字辅助属性,和通过文本确定带有时间明显性的位置,以增强视频表示,从而有效提高各种识别情景下的视频识别性能的创新框架。 在六个流行的视频数据集中进行的广泛研究表明,我们的方法在各种识别方案中均实现了最先进的性能。
Dec, 2022
提出了一种利用 Vision Transformers(ViTs)和 Visual Language Models(VLMs)之间的互补优势的 Four-tiered Prompts(FTP)框架,通过改进视觉编码并对齐 VLM 输出,从而实现对视频中人类行为的具体方面的处理,对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率,超过 VideoMAEv2 分别 2.8% 和 2.6%。
Mar, 2024
介绍了 ViLPAct,这是一个视觉 - 语言基准,用于人类活动计划。数据集包括 2.9k 视频,通过众包方式扩展了人的意图。据我们的广泛实验表明,主要的挑战是组合泛化和有效利用两种模态的信息。
Oct, 2022
通过联合生成姿势预测和区分性上下文匹配的方式,我们设计了一种专用于动作识别的协同自监督视频表示学习框架(CSVR),其中包括三个支路:生成姿势预测支路、区分性上下文匹配支路和视频生成支路。这种方法在 UCF101 和 HMDB51 数据集上取得了最先进的性能。
Jan, 2024
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
Aug, 2023
基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类,这需要大量的预定义动作类别注释;而基于自监督学习的方法涉及预处理任务中的骨架变换,可能会损害骨架结构。为了解决这些挑战,我们引入了一种新颖的基于骨骼的训练框架(C$^2$VL),基于跨模态对比学习,使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。
May, 2024
本研究提出了『Visual Planning for Assistance (VPA)』的任务,通过视频中的行动段落和预测,使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系,从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。
Apr, 2023