Jan, 2024

3DMIT: 3D多模态指导调整用于场景理解

TL;DR我们构建了一个包含75K个指令-回答对的广泛数据集,针对3D场景进行了任务,如3D VQA、3D grounding和3D conversation,并引入了一种名为3DMIT的新颖且高效的提示调优范例,通过将3D空间信息整合到LLMs中,使其更好地理解3D世界。