零样本基于骨架的动作识别的信息补偿框架

MMJun, 2024

零样本基于骨架的动作识别的信息补偿框架

An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition

Haojun Xu, Yan Gao, Jie Li, Xinbo Gao

TL;DR从信息论的角度设计信息补偿学习框架，通过多粒度语义交互机制来提高零样本动作识别准确性，并提出多层次对齐方法对动作类别的信息进行补偿，利用新的损失函数采样方法获得紧密且鲁棒的表示，进而通过合成多粒度语义嵌入形成适当的分类决策面，验证多粒度语义特征有助于区分具有相似视觉特征的动作簇。

Abstract

Zero-shot human skeleton-based action recognition aims to construct a model that can recognize actions outside the categories seen during training. Previous research has focused on aligning sequences' visual and semantic spatial distributions. However, these methods extract

zero-shot action recognition skeleton-based information compensation learning multi-granularity alignment semantic features

发现论文，激发创造

细粒度的辅助信息引导的零样本骨架动作识别

通过侧面信息和双提示学习，我们提出了一种用于基于骨架的零样本动作识别（STAR）的新方法，以精细级别对骨架和语义空间进行对齐，从而区分高相似动作类别。我们在 NTU RGB+D、NTU RGB+D 120 和 PKU-MMD 数据集上进行了广泛实验，结果表明我们的方法在 ZSL 和 GZSL 设置上取得了最先进的性能。

Apr, 2024

通过互信息估计与最大化进行零样本基于骨架的动作识别

通过相互信息估计和最大化，我们提出了一种基于零样本骨骼动作识别的新方法，通过最大化视觉和语义空间之间的相互信息来进行分布对齐，并利用时间信息来估计相互信息，以增加观察到的帧数。

Aug, 2023

通用零样本基于骨骼的动作识别的多义融合模型

提出了一种用于提高广义零样本基于骨骼的动作识别（GZSSAR）性能的多语义融合（MSF）模型，其中采集了两种类级文本描述（动作描述和运动描述）作为辅助语义信息，以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征，并利用基于变分自动编码器（VAE）的生成模块学习骨骼和语义特征之间的跨模态对齐，最后构建分类模块识别输入样本的动作类别，并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比，提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。

Sep, 2023

Skeleton-DML: 基于骨架的单次动作识别的深度度量学习

本文提出了一个以深度度量学习为基础的单次动作识别方法，使用图像骨骼表示法，在嵌入空间中训练模型，在 NTU RGB+D 120 数据集中，实现了单次动作识别协议最新的 3.3％提升，在附加数据增强后提高了超过 7.7％。

Dec, 2020

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

基于多尺度时空骨架匹配的一次性动作识别

本文提出一种新的一次性骨架动作识别技术，通过多尺度空间和时间特征匹配处理骨架动作识别，实现了优秀、卓越的一次性骨架动作识别，并在诸多大规模数据集上，持续超越当前最先进的方法。

Jul, 2023

零样本人体动作识别的替代语义表示

探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征，结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型，特别是图像语义表示，即使每个类别只是从少量图像中提取的。

Jun, 2017

视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类，这需要大量的预定义动作类别注释；而基于自监督学习的方法涉及预处理任务中的骨架变换，可能会损害骨架结构。为了解决这些挑战，我们引入了一种新颖的基于骨骼的训练框架（C$^2$VL），基于跨模态对比学习，使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。

May, 2024

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

基于时空解耦对比学习的骨骼人体动作识别

我们提出了一种用于基于骨架的动作识别的框架（STD-CL），通过解耦空间和时间特征并应用注意力特征到对比学习，改进了全局特征的语义，提高了准确性，在 NTU60、NTU120 和 NW-UCLA 基准数据集上实现了改进。

Dec, 2023