May, 2022

使用目标条件强化学习的路径规划中的全控制智能体

TL;DR本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划,并通过使用双向记忆编辑方法得到智能体的不同双向轨迹,隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向,最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明,智能体能够到达训练中从未到达过的各种目标,并且能够使用奖励形态化来选择较短的路径。