零样本基于骨架的动作识别的信息补偿框架
通过侧面信息和双提示学习,我们提出了一种用于基于骨架的零样本动作识别(STAR)的新方法,以精细级别对骨架和语义空间进行对齐,从而区分高相似动作类别。我们在 NTU RGB+D、NTU RGB+D 120 和 PKU-MMD 数据集上进行了广泛实验,结果表明我们的方法在 ZSL 和 GZSL 设置上取得了最先进的性能。
Apr, 2024
通过相互信息估计和最大化,我们提出了一种基于零样本骨骼动作识别的新方法,通过最大化视觉和语义空间之间的相互信息来进行分布对齐,并利用时间信息来估计相互信息,以增加观察到的帧数。
Aug, 2023
提出了一种用于提高广义零样本基于骨骼的动作识别(GZSSAR)性能的多语义融合(MSF)模型,其中采集了两种类级文本描述(动作描述和运动描述)作为辅助语义信息,以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并利用基于变分自动编码器(VAE)的生成模块学习骨骼和语义特征之间的跨模态对齐,最后构建分类模块识别输入样本的动作类别,并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比,提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。
Sep, 2023
本文提出了一个以深度度量学习为基础的单次动作识别方法,使用图像骨骼表示法,在嵌入空间中训练模型,在 NTU RGB+D 120 数据集中,实现了单次动作识别协议最新的 3.3%提升,在附加数据增强后提高了超过 7.7%。
Dec, 2020
本篇论文探讨零样本学习在现代视频动作识别任务中的应用,采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂,并且难以学习的问题。通过自我训练和数据增强等策略,大大提高了这种映射的有效性,在 HMDB51 和 UCF101 等人体动作数据集上,本方法实现了最新的零样本动作识别性能。
Feb, 2015
本文提出一种新的一次性骨架动作识别技术,通过多尺度空间和时间特征匹配处理骨架动作识别,实现了优秀、卓越的一次性骨架动作识别,并在诸多大规模数据集上,持续超越当前最先进的方法。
Jul, 2023
探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征,结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型,特别是图像语义表示,即使每个类别只是从少量图像中提取的。
Jun, 2017
基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类,这需要大量的预定义动作类别注释;而基于自监督学习的方法涉及预处理任务中的骨架变换,可能会损害骨架结构。为了解决这些挑战,我们引入了一种新颖的基于骨骼的训练框架(C$^2$VL),基于跨模态对比学习,使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。
May, 2024
本篇研究提出了一种基于跨模态 Transformer 的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。
May, 2022
我们提出了一种用于基于骨架的动作识别的框架(STD-CL),通过解耦空间和时间特征并应用注意力特征到对比学习,改进了全局特征的语义,提高了准确性,在 NTU60、NTU120 和 NW-UCLA 基准数据集上实现了改进。
Dec, 2023