Apr, 2024

VG4D:视觉语言模型进入 4D 视频识别

TL;DR通过 Vision-Language Models Goes 4D (VG4D) 框架,我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中,实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器,并通过实验证明了我们方法在动作识别方面达到了最先进的性能。