使用目标条件强化学习的路径规划中的全控制智能体

May, 2022

使用目标条件强化学习的路径规划中的全控制智能体

A Fully Controllable Agent in the Path Planning using Goal-Conditioned Reinforcement Learning

GyeongTaek Lee

TL;DR本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划，并通过使用双向记忆编辑方法得到智能体的不同双向轨迹，隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向，最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明，智能体能够到达训练中从未到达过的各种目标，并且能够使用奖励形态化来选择较短的路径。

Abstract

The aim of path planning is to reach the goal from starting point by searching for the route of an agent. In the path planning, the routes may vary depending on the number of variables such that it is important f

path planning reinforcement learning sub-goals trajectory reward shaping

发现论文，激发创造

使用记忆编辑在强化学习中学习用户定义的子目标

通过记忆编辑等技术，实现了强化学习中的控制代理实现中间子目标的方法，可广泛应用于需要在多种场景下控制代理的领域。

May, 2022

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

使用目标条件策略模拟基于图的规划

该论文提出了一种基于图形规划算法和自我模仿的方法，通过提取子目标策略来优化目标目标策略，从而提高在长期任务中实现指定目标的样本效率。

Mar, 2023

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

未知环境下在线覆盖路径规划的端到端强化学习

该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法，用于处理未知环境的大型区域，并且结合了全局地图和局部感知输入，以及多尺度地图输入表示的观测空间构建，通过提出的全变差奖励，实现了学习路径上无漏洞被覆盖的目标。

Jun, 2023

CostNet: 目标导向强化学习的端到端框架

本文引入一种新的强化学习算法，通过学习马尔可夫决策过程中两个状态之间的距离来预测，距离度量作为内在奖励被用于推动智能体的学习。实验结果表明，相比于模型无关的强化学习，该算法在多个测试环境中具有更好的样本效率。

Oct, 2022

Sub-Goal Trees -- 基于目标的强化学习框架

提出了一种基于动态规划方程的强化学习框架，能够自然地解决多目标查询问题，并使用子目标树结构构建轨迹，从而扩展策略梯度法来预测子目标，应用于神经运动规划领域，与标准强化学习相比，取得了显著的改进。

Feb, 2020

采用强化学习的路径生成与细化运动控制的机器人导航

本文提出了一种基于强化学习的路径生成（RL-PG）方法，以用于移动机器人导航，无需事先探索未知环境。该方法采用深度马尔可夫模型优化的 RL 算法生成多个预测路径点，通过运动微调模块 fine-tuning 机器人的运动以确保跟踪预测点时的安全。通过在模拟和物理平台上的部署，证明本文提出的方法有效并且其成功率更高于 DWA-RL 和传统的 APF 导航方法。

Oct, 2022