走向学习通用模型的行动导航
近年来,大型语言模型(LLMs)如生成预训练变换器(GPT)的快速进展引起了越来越多的关注,由于它们在各种实际应用中的潜力。LLMs 与具身智能的应用已成为一个重要的研究领域,其中导航任务尤为引人注目,因为它们需要对环境有深刻的理解和快速准确的决策能力。本文全面总结了 LLMs 与具身智能之间的共生关系,重点关注导航领域。它回顾了最先进的模型、研究方法,并评估了现有具身导航模型和数据集的优缺点。最后,根据当前研究,阐明了 LLMs 在具身智能中的作用,并预测了未来的研究方向。本调查的研究清单可在此 https URL 上找到。
Nov, 2023
综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域,着重介绍了在这一领域内的各种高级技能,例如:感知局部观察视觉输入,理解跨模态的指令等等,并探讨了未来的研究方向及挑战。
Jul, 2021
利用大规模知识和学习方案以及大型语言模型(LLM),最近的机器学习模型在构建通用性代理人方面取得显著成功,表现出在不同领域(包括自然语言处理、计算机视觉和机器人技术)解决通用任务的能力。然而,这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此,我们提出了一种根植于三维世界中,并具有多模态和多任务的通用代理人,其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人,称为 LEO,在两个阶段进行训练:(一)三维视觉语言对齐,(二)三维视觉语言行动指导调整。为了促进训练,我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集,需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力,包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。
Nov, 2023
本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型,同时还探索了一种用于导航策略的环境无关表示法,并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。
Mar, 2020
通过引入多模态基础世界模型,GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐,从而克服了现有基础视觉语言模型在不同领域上的问题,并在多个运动和操作领域展现了强大的多任务泛化性能。此外,通过引入无数据强化学习策略,还为通用性的综合模型基于强化学习的全能代理奠定了基础。
Jun, 2024
该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率相比前者提高了 25%-30%
Jul, 2023
研究提出了一种使用自然语言引导体现任务完成的模型,使用模块在更广阔的视野范围内学习选择下一步是否需要导航或操作,改进了现有基准数据集 ALFRED 上的表现。但是,最优模型在未见过的测试集分裂上表现不佳,突出了在机器学习任务中性能波动的需要修改基准设计以更好地考虑模型性能差异的需求。
May, 2022
本文研究了如何通过结构相似的多种机器人的数据来训练基于视觉的导航通用目标条件模型,并分析了有效数据共享的必要设计决策,证明了从异构数据集训练的普适策略优于任何单一数据集训练的策略。
Oct, 2022
该研究提出一种名为 ELBA 的模型,以增强具有互动人类能力的代理,通过问答实现动态获取附加信息,以提高任务完成性能,并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。
Feb, 2023
基于大型语言模型的新方法 SayNav,通过建立探索环境的三维场景图,生成高级导航计划,并利用预训练的低级规划器逐步执行,动态生成导航过程中的指令并根据新感知信息不断改进步骤,有效在大规模新环境中定位多个不同物体。
Sep, 2023