视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

May, 2024

视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning

PDF

Yang Chen, Tian He, Junfeng Fu, Ling Wang, Jingcai Guo...

TL;DR基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类，这需要大量的预定义动作类别注释；而基于自监督学习的方法涉及预处理任务中的骨架变换，可能会损害骨架结构。为了解决这些挑战，我们引入了一种新颖的基于骨骼的训练框架（C$^2$VL），基于跨模态对比学习，使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。

Abstract

Supervised and self-supervised learning are two main training paradigms for skeleton-based human action recognition. However, the former one-hot classification requires labor-intensive predefined action categorie

supervised learning self-supervised learning skeleton-based human action recognition cross-modal contrastive learning skeleton-vision-language pairs

发现论文，激发创造

Skeleton-Contrastive 3D 行为表示学习

本论文提出了一种基于骨架的行为识别的自监督学习方法，通过噪声对比估计学习骨架表示的不变性以及各种增强策略。该方法在 PKU 和 NTU 数据集上进行了验证，并在多个下游任务中实现了最新水平。

Aug, 2021

MS$^2$L：基于骨架的动作识别的多任务自监督学习

本文探讨了基于自监督学习的骨骼动作识别中的表征学习问题，提出了一种多任务自监督学习的方法，包括运动预测、拼图识别和对比学习等方法。实验表明该方法在不同配置下的动作分类器上表现出优异的性能。

Oct, 2020

跨模态知识蒸馏用于动作识别

研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态，提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法，使得几乎达到了使用完全监督训练的学生网络的精度。

Oct, 2019

基于骨架的动作识别语言监督训练

本研究提出了一种基于骨架的动作识别的语言监督训练方法。该方法利用了大规模的语言模型作为知识引擎，生成描述动作的文本描述，为不同的身体部位生成特征向量，并通过语言编码器监督骨架编码器进行动作表示学习，相对于其他模型，达到了新的技术水平。

Aug, 2022

自监督跨模态相互蒸馏的三维动作表示学习

本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示，该框架中引入邻域相似性分布来建模每种模态中学到的知识，并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息，该方法在多个数据集上均举行了大量实验，超出了现有的自监督方法并创造了一系列新记录。

Aug, 2022

通过跨视角一致性追求进行 3D 人体动作表征学习

本研究提出了一种使用多视角补充监督信号的交叉视图对比学习框架，该框架涵盖了单视图对比学习和交叉视图一致性知识挖掘模块，能够在无监督设置下实现 NTU-60 和 NTU-120 数据集上卓越的动作识别结果。

Apr, 2021

提升基于骨架的行为识别与高效多模态自监督

自我监督表示学习在人体动作识别方面得到了快速发展。本文首先提出了一种隐式知识交换模块（IKEM），用于减轻低性能模态之间的错误知识传播。然后，我们进一步提出了三种新模态来丰富不同模态之间的互补信息。最后，通过锚点、正样本和负样本之间的约束关系，我们提出了一种新的教师 - 学生框架，将次要模态的知识蒸馏到强制性模态中，名为关系型跨模态知识蒸馏。实验证明了我们方法的有效性，可以高效利用基于骨架的多模态数据。源代码将公开发布在给定的网址。

Sep, 2023

零样本基于骨架的动作识别的信息补偿框架

从信息论的角度设计信息补偿学习框架，通过多粒度语义交互机制来提高零样本动作识别准确性，并提出多层次对齐方法对动作类别的信息进行补偿，利用新的损失函数采样方法获得紧密且鲁棒的表示，进而通过合成多粒度语义嵌入形成适当的分类决策面，验证多粒度语义特征有助于区分具有相似视觉特征的动作簇。

Jun, 2024

通过部分知识蒸馏提高低质量骨架数据的动作识别能力

为解决低质量骨架动作识别问题，本文提出了一个通用的知识蒸馏框架，利用师生模型结构和基于部分的骨架匹配策略，通过多样本对比损失实现从高质量到低质量骨架的知识迁移，进而训练出可以处理低质量骨架的学生模型。实验证明了该知识蒸馏框架的有效性。

Apr, 2024

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022