Apr, 2023

演化约束强化学习策略

TL;DR本文提出了一种新的进化约束强化学习算法,它使用随机排序自适应平衡奖励和约束违规,并通过维护一组拉格朗日松弛系数与约束缓冲器限制政策行为。实验结果表明,我们的方法在机器人控制测试中表现出优异的性能,同时,消融分析显示引入随机排序和约束缓冲的好处。