Mar, 2024
具有随机停止时间的约束马尔可夫决策过程的安全增强学习
Safe Reinforcement Learning for Constrained Markov Decision Processes
with Stochastic Stopping Time
TL;DR我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。