OTO 规划器:用于复杂和未知环境的高效只旅行一次探索规划器
大型语言模型已成为各种自主代理系统中不可或缺的组成部分,在本研究中我们提出了一种基于探索的轨迹优化方法,称为 ETO,通过允许代理从探索失败中学习而提高开放式 LLM 代理的性能,不同于之前只对成功专家轨迹进行训练的方法,我们的方法允许代理通过对比学习方法(如 DPO)利用这些轨迹偏好对来更新政策,通过探索和训练的迭代循环促进了代理的持续改进,在三个复杂任务上的实验表明 ETO 始终以较大幅度超过基线性能,并且在缺乏专家轨迹的情景中展示了其解任务效率和潜力的有效性。
Mar, 2024
本文介绍了一种新颖的在线时空图轨迹规划器,用于生成安全且舒适的轨迹。通过构建时空图,并进一步传递给顺序网络,该规划器能够生成符合安全与舒适要求的状态。此外,还提出了一个简单的行为层用于确定轨迹规划器的动力学约束,并提出了一种新颖的潜力函数来训练网络。通过对比其效果与两种常用方法,测试了该规划器在三种不同的复杂驾驶任务下的性能,结果表明该规划器能够生成安全、可行性高的轨迹,并在前进方向上达到相似或更远的距离,提供了可比较的舒适性乘车体验。
Apr, 2024
本文章提出了一种基于 ROS 框架的混沌路径规划应用程序,该程序通过提供避障技术、混沌轨迹分散和准确覆盖计算等技术,解决了对于限制目标的自主搜索与遍历任务的三大关键问题,其性能可与传统最优路径规划器相媲美,并在多种大小、形状和障碍物密度的真实环境与 Gazebo 模拟中进行了测试。
May, 2023
该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法,该方法能够更好地预测未来状态的价值以更好地指导机器人探索,在挑战性的地下和城市环境中首次应用于真实世界数据集中。
Apr, 2022
自主机器人的目标导向探索中,TopoNav 框架通过主动拓扑映射、内在奖励机制和分层目标优先级确保有效、适应性强的探索,提高探索效率和导航准确性,适用于搜索与救援、环境监测以及行星探索等广泛应用领域。
Feb, 2024
离线预训练与在线微调(offline-to-online 或 OtO)是与实际强化学习部署过程相匹配的范式,我们研究在线强化学习开拓问题的主要方法,其中 PTGOOD 算法在在线微调中显著提高了智能体回报,并且在少于 10k 的在线步骤中找到了最优策略。
Oct, 2023
通过基于集中式 Transformer 神经网络的多智能体路径规划系统,能够以非常快速且准确的方式解决团队定向问题,并在计算速度方面超过大多数现有技术。
Nov, 2023
本研究提出了一种基于高斯过程模型的无人机自适应信息路径规划算法(OA-IPP),该算法可以在复杂的三维环境中进行目标搜索,该算法与现有的路径规划算法相比表现更好,可以应用于实际的城市搜救情景。
Feb, 2019