Feb, 2024

ShapeLLM:面向体验交互的通用三维物体理解

TL;DRShapeLLM 是第一个为具身交互而设计的 3D 多模态大型语言模型,通过使用 3D 点云和语言探索通用的 3D 物体理解能力,并通过扩展 ReCon 到 ReCon++ 以进行改进的几何理解。利用 ReCon++ 作为 3D 点云输入编码器进行 LLM 训练,ShapeLLM 在构建的指令跟随数据上进行训练,并在新的人工策划评估基准 3D MM-Vet 上进行测试,实现了在 3D 几何理解和语言统一的 3D 交互任务(如具身视觉基准)中的最新性能。