Dec, 2023

多约束安全增强学习的梯度塑形

TL;DR利用多目标优化(MOO)的统一框架来解决复杂的多约束(MC)安全强化学习(safe RL)问题,通过操纵约束条件的梯度,引入梯度塑形(GradS)方法来改善训练效率,实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学习策略的效果,同时对约束数量的扩展性表现良好。