May, 2024

视觉语言与骨骼的融合:逐步蒸馏和跨模态知识用于 3D 动作表示学习

TL;DR基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类,这需要大量的预定义动作类别注释;而基于自监督学习的方法涉及预处理任务中的骨架变换,可能会损害骨架结构。为了解决这些挑战,我们引入了一种新颖的基于骨骼的训练框架(C$^2$VL),基于跨模态对比学习,使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。