通用零样本基于骨骼的动作识别的多义融合模型

Sep, 2023

通用零样本基于骨骼的动作识别的多义融合模型

Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based Action Recognition

Ming-Zhe Li, Zhen Jia, Zhang Zhang, Zhanyu Ma, Liang Wang

TL;DR提出了一种用于提高广义零样本基于骨骼的动作识别（GZSSAR）性能的多语义融合（MSF）模型，其中采集了两种类级文本描述（动作描述和运动描述）作为辅助语义信息，以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征，并利用基于变分自动编码器（VAE）的生成模块学习骨骼和语义特征之间的跨模态对齐，最后构建分类模块识别输入样本的动作类别，并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比，提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。

Abstract

generalized zero-shot skeleton-based action recognition (GZSSAR) is a new challenging problem in computer vision community, which requires models to recognize actions without any training samples. Previous studies only utilize the action labels of verb phrases as the →

generalized zero-shot skeleton-based action recognition semantic prototypes multi-semantic fusion model skeleton features variational autoencoder

发现论文，激发创造

零样本基于骨架的动作识别的信息补偿框架

从信息论的角度设计信息补偿学习框架，通过多粒度语义交互机制来提高零样本动作识别准确性，并提出多层次对齐方法对动作类别的信息进行补偿，利用新的损失函数采样方法获得紧密且鲁棒的表示，进而通过合成多粒度语义嵌入形成适当的分类决策面，验证多粒度语义特征有助于区分具有相似视觉特征的动作簇。

Jun, 2024

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

零样本动作识别的详细排练

本文提出了一种基于 Elaborative Rehearsal 技术的 ER-enhanced ZSAR 模型，该模型使用 Elaborative Description 和 Elaborative Concepts 来扩展动作类别以及提高视频语义，从而实现了零样本行为识别任务的最新成果，并在与 few-shot learning 模型的比较中提供针对 Kinetics 数据集的全新 ZSAR 评估方案。

Aug, 2021

面向少样本动作识别的语义感知视频表示

我们提出了一种简单而有效的语义感知少样本动作识别模型（SAFSAR），该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类，实现了更好的性能，无需复杂的距离函数和额外的时间建模组件。在这种方案中，SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合，并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明，所提出的 SAFSAR 模型显著提高了最先进的性能。

Nov, 2023

细粒度的辅助信息引导的零样本骨架动作识别

通过侧面信息和双提示学习，我们提出了一种用于基于骨架的零样本动作识别（STAR）的新方法，以精细级别对骨架和语义空间进行对齐，从而区分高相似动作类别。我们在 NTU RGB+D、NTU RGB+D 120 和 PKU-MMD 数据集上进行了广泛实验，结果表明我们的方法在 ZSL 和 GZSL 设置上取得了最先进的性能。

Apr, 2024

主动学习稀疏半监督动作识别

该研究提出了 SESAR 方法，它将无监督学习和少量有监督学习相结合，通过两个组件对骨骼动作序列进行训练，从而实现骨骼动作识别，其性能超越其他方法，即使只使用 1% 已标记的数据。

Dec, 2020

通过互信息估计与最大化进行零样本基于骨架的动作识别

通过相互信息估计和最大化，我们提出了一种基于零样本骨骼动作识别的新方法，通过最大化视觉和语义空间之间的相互信息来进行分布对齐，并利用时间信息来估计相互信息，以增加观察到的帧数。

Aug, 2023

使用预训练的深度骨架特征和提示引导的零 - shot 异常动作识别

运用无监督异常行为识别方法，基于骨架提取特征，提出了具有领域无关性、鲁棒性和零样本学习框架，通过用户提示嵌入与骨架特征的相似度计分，间接补充正常行为，加强了基于骨架的方法的可靠性，能够有效地识别异常事件。

Mar, 2023

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

泛零样本学习的语义分离

本文针对广义零样本学习任务，提出了一种新颖的语义分离框架，使用条件 VAE 将未见过的类别的视觉特征分解为与语义一致、不相关的潜在向量，并且通过相关性惩罚和关系网络确保两个分解表示之间的独立性和语义一致性。在四个广义零样本学习基准数据集上的实验表明，由该框架分离出的语义一致特征在规范化和广义零样本学习任务中更具普适性。

Jan, 2021