Mar, 2024

带有平滑对数障碍函数的有约束强化学习

TL;DR我们提出了一种新的约束强化学习方法,称为 CSAC-LB(具有对数势函数的约束软 Actor-Critic)。通过将线性平滑对数势函数应用于附加的安全评论家,它实现了适应性政策学习的惩罚,并减轻了对数势函数方法应用中已知的数值问题,从而在几个不同难度的约束控制任务上实现了最先进的性能,并在真实的四足机器人平台上评估了我们的方法。