Mar, 2022

多智能体路径规划中基于长短时记忆的空间编码

TL;DR本文提出了一个基于强化学习的路径规划方法,可以应用到多经纬系统,通过训练一个连续状态和动作的策略网络,使其具有理想的路径规划行为,该方法通过 LSTM 模块来编码不特定数量的状态,可以扩展到具有无限数量代理和维度的情形,同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。