SCOTT:具有视觉语言模型和战略思维链的无线感知路径规划
本文介绍了 PathBench 平台,它是一个专门用于开发、可视化、训练、测试和基准测试现有和未来的经典路径规划算法以及基于机器学习的路径规划算法的统一路径规划接口,支持对不同硬件系统和地图类型进行算法的比较,提供路径长度、成功率和计算时间等指标用于评估算法的性能,支持在真实机器人系统中应用,且是开源的。
Mar, 2022
我们开发了一种基于Transformer的架构PIGINet,该架构可通过融合图像和文本嵌入以及状态特征,预测计划可行性,并根据预测的满足度排序TAMP计划器生成的计划骨架,从而能够大大提高可行性规划的效率。
Nov, 2022
我们介绍了一种名为Robotic Vision-Language Planning (ViLa)的新方法,该方法结合了视觉-语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
大型语言模型(LLMs)在各种任务中展示了令人印象深刻的能力,然而它们仍然面临着长期规划的挑战。为了研究这一点,我们提出了路径规划任务作为评估LLMs在几何约束下导航长轨迹能力的平台。我们的基准测试系统地测试了复杂环境中的路径规划技能。使用这个基准测试,我们使用各种任务表示和提示方法来研究GPT-4的规划能力。我们发现将提示框架化为Python代码,并对长期轨迹任务进行分解可以提高GPT-4的路径规划效果。然而,尽管这些方法在改善模型的规划能力方面显示出一些希望,但它们不能获得最优路径,并且无法在较长时间范围内进行泛化。
Jun, 2024
本研究提出了一种名为DKPROMPT的新型任务规划与执行框架,通过在PDDL中使用领域知识自动化VLM提示,实现在开放世界中进行经典规划,结果显示DKPROMPT在任务完成率方面优于传统规划、纯VLM和其他几个竞争基线。
Jun, 2024
提出了一种新的基于大型语言模型的路径规划方法 LLM-A*,通过将精确的 A* 路径搜索能力与大型语言模型的全局推理能力相结合,旨在提高路径规划的效率并保持路径的有效性。
Jun, 2024
LLM基础代理在视觉语言导航(VLN)任务中展示了令人印象深刻的零射击性能。为解决实际导航场景中的低级控制问题,我们提出了AO-Planner,一种新颖的面向预设语境的连续VLN任务规划框架。通过集成各种基础模型,我们的AO-Planner能够以零射击方式进行适应性导航的运动规划和动作决策制定。实验证明AO-Planner在具有挑战性的R2R-CE基准测试中取得了最先进的零射击性能(SPL提高了5.5%),为LLM和三维世界之间的快速有效连接提供了新的前景。
Jul, 2024
在导航研究中,一个难以达成的目标是建立一个智能代理,能够理解包括自然语言和图像的多模式指令,并进行有用的导航。为了实现这一目标,我们研究了一类被称为多模式指令导航(MINT)的广泛应用导航任务,其中环境先验通过以前记录的演示视频提供。最近视觉语言模型(VLMs)的进展显示了实现这一目标的有希望的途径,因为它表现出对多模式输入的感知和推理能力。然而,VLMs通常是训练来预测文本输出的,关于如何最好地利用它们进行导航是一个需要研究的问题。为了解决MINT,我们提出了一个名为移动VLA的分层视觉语言行动(VLA)导航策略,它结合了长上下文VLMs的环境理解和常识推理能力以及基于拓扑图的稳健低层导航策略。该高层策略由一个长上下文VLM组成,它以演示导航视频和多模式用户指令作为输入,在导航视频中找到目标帧。接下来,一个低层策略使用目标帧和离线构建的拓扑图在每个时间步生成机器人动作。我们在一个836平方米的真实世界环境中评估了移动VLA,并展示了在以前无法解决的多模式指令如“我应该把这个放在哪里?”的情况下,移动VLA具有高的端到端成功率,同时拿着一个塑料箱。
Jul, 2024
本研究针对大型语言模型在端到端规划中的有效性有限的问题,探讨视觉语言模型(VLMs)作为路径评估者的潜力。文章提出了PathEval,一个新的基准,用于评估VLMs在复杂路径规划场景中的表现,发现目前的VLM面临显著挑战,特别是在低级细节感知上的瓶颈。实验结果表明,充分发挥VLM作为路径评估者的能力需要针对任务的特定适应。
Nov, 2024