Sep, 2023

HyperPPO:一种用于机器人控制的寻找小策略的可扩展方法

TL;DR为实现记忆受限、高性能机器人的神经控制,需要具有较少参数的模型。本研究提出了一种基于图形超网络的在线策略强化学习算法HyperPPO,能够同时估计多个较小神经网络架构的权重,并获得高性能的策略。我们的方法能够在保持采样效率的同时,为用户提供选择适合计算约束的网络架构。实验证明,我们方法的扩展性较好,更多的训练资源能够更快地收敛到性能更高的架构。我们还展示了HyperPPO估计的神经策略能够进行Crazyflie2.1四旋翼飞行器的分散控制。