May, 2021

可行的演员-评论家算法:基于约束强化学习实现状态安全性保障

TL;DR本文提出了可行行动者-评论家(FAC)算法,是第一个考虑到每个初始状态的状态安全性的无模型约束RL方法,通过构造基于RL采样的状态Lagrange函数并采用附加神经网络逼近状态Lagrange乘数,我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。