Jul, 2020

PID Langrangian方法实现的强化学习响应性安全性

TL;DR本研究解决拉格朗日算法在安全强化学习中产生超调和振荡的问题,提出了一种新的拉格朗日乘数更新方法,并将其应用于深度强化学习,成功在Safety Gym等安全基准中创造了新的最佳表现。