Jan, 2024

3DMIT: 3D 多模态指导调整用于场景理解

TL;DR我们构建了一个包含 75K 个指令 - 回答对的广泛数据集,针对 3D 场景进行了任务,如 3D VQA、3D grounding 和 3D conversation,并引入了一种名为 3DMIT 的新颖且高效的提示调优范例,通过将 3D 空间信息整合到 LLMs 中,使其更好地理解 3D 世界。