Jun, 2023

安全关键强化学习的概率约束

TL;DR本文探讨了在概率受限制的强化学习中学习安全策略的问题,并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验,验证了这些方法的有效性和优越性。