CVPRMay, 2024

使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型

TL;DR构建 3D 人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要,然而,与图像数据的丰富相比,动作数据的稀缺限制了现有动作语言模型的性能,为了解决这个问题,我们介绍了 “动作补丁” 的新表示方法,并通过迁移学习,提出使用视觉变换器(ViT)作为动作编码器,旨在从图像域中提取有用的知识并应用于动作域,我们发现通过使用训练 2D 图像数据获得的 ViT 的预训练权重进行迁移学习可以提高动作分析的性能,为解决有限动作数据的问题提供了一个有希望的方向,我们广泛的实验证明了所提出的动作补丁与 ViT 的联合使用在文本到动作检索以及其他新颖的具有挑战性的任务中取得了最先进的性能,例如跨骨架识别、零样本动作分类和人体交互识别,这些任务目前由于数据缺乏而受到限制。