May, 2024

安全平衡:一种用于约束多目标强化学习的框架

TL;DR在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。