Nov, 2023

三维环境中的具身综合应用智能体

TL;DR利用大规模知识和学习方案以及大型语言模型(LLM),最近的机器学习模型在构建通用性代理人方面取得显著成功,表现出在不同领域(包括自然语言处理、计算机视觉和机器人技术)解决通用任务的能力。然而,这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此,我们提出了一种根植于三维世界中,并具有多模态和多任务的通用代理人,其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人,称为 LEO,在两个阶段进行训练:(一)三维视觉语言对齐,(二)三维视觉语言行动指导调整。为了促进训练,我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集,需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力,包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。