Dec, 2023

Chat-3D v2:通过对象标识符将 3D 场景与大型语言模型相连接

TL;DR我们提出了一种使用对象标识符在对话中自由引用对象的方法,通过学习每个对象的属性感知令牌和关系感知令牌来解决建立可靠的对象 - 标识符一对一对应关系以及在 LLM 的嵌入空间中融入复杂的空间关系的挑战,并通过指令调整在各种下游任务上对模型进行微调,实验证明了我们提出方法的有效性,同时创建了一个包含丰富对象标识符的 3D 场景字幕数据集,以进一步探索对象标识符在有效对象引用和精确场景理解中的能力。