Jul, 2019

用于大规模机器人控制的图策略梯度

TL;DR本文提出了一种叫做 Graph Policy Gradients (GPG) 的新算法,使用图卷积神经网络 (GCN) 来参数化机器人的策略,处理大量的同构机器人问题,并且证明实验证明,与采用完全连接网络的现有强化方法相比,我们提出的方法能够更好地扩展。更重要的是,我们通过使用局部学习的筛选器,证明了能够将仅在三个机器人上训练的策略 “零 - shot” 传输到 100 多个机器人。