Jun, 2023

安全关键强化学习的概率约束

TL;DR本文探讨了在概率受限制的强化学习中学习安全策略的问题,并提出了两种算法——Safe Policy Gradient-REINFORCE和SPG-Actor-Critic以及Safe Primal-Dual算法来解决。通过实验,验证了这些方法的有效性和优越性。