Feb, 2020

通过Langevin动力学与对抗训练实现强化学习的鲁棒性

TL;DR本研究基于随机梯度 langevin 动力学引入了一种采样视角来训练机器人学习代理,构建了一种新型、可扩展的两个玩家机器人学习算法,并在多个 MuJoCo 环境中证明了该算法相对于传统机器人学习算法更具有一般化能力。