Sep, 2023

通用零样本基于骨骼的动作识别的多义融合模型

TL;DR提出了一种用于提高广义零样本基于骨骼的动作识别(GZSSAR)性能的多语义融合(MSF)模型,其中采集了两种类级文本描述(动作描述和运动描述)作为辅助语义信息,以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并利用基于变分自动编码器(VAE)的生成模块学习骨骼和语义特征之间的跨模态对齐,最后构建分类模块识别输入样本的动作类别,并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比,提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。