Sep, 2023

LLM-Grounder:使用大型语言模型作为代理人进行开放词汇三维视觉对接

TL;DRLLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。