Dec, 2023

弹韧性约束强化学习

TL;DR我们提出了一种新的约束强化学习方法,通过在学习目标中引入放松成本来适应放松约束,以实现对策略和约束规格的联合搜索,然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化,最后通过计算实验来证明我们方法的优点和有效性。