使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型

May, 2024

使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型

Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches

Qing Yu, Mikihiro Tanaka, Kent Fujiwara

TL;DR构建3D人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要，然而，与图像数据的丰富相比，动作数据的稀缺限制了现有动作语言模型的性能，为了解决这个问题，我们介绍了“动作补丁”的新表示方法，并通过迁移学习，提出使用视觉变换器（ViT）作为动作编码器，旨在从图像域中提取有用的知识并应用于动作域，我们发现通过使用训练2D图像数据获得的ViT的预训练权重进行迁移学习可以提高动作分析的性能，为解决有限动作数据的问题提供了一个有希望的方向，我们广泛的实验证明了所提出的动作补丁与ViT的联合使用在文本到动作检索以及其他新颖的具有挑战性的任务中取得了最先进的性能，例如跨骨架识别、零样本动作分类和人体交互识别，这些任务目前由于数据缺乏而受到限制。

Abstract

To build a cross-modal latent space between 3D human motion and language, acquiring large-scale and high-quality human motion data is crucial. However, unlike the abundance of image data, the scarcity of motion data has limited the performance of existing motion-language models. To cou