Feb, 2022

找到政策马尔可夫决策过程的安全区域

TL;DR本文研究了定义为策略安全区子集的 SafeZone 的复杂性,提出了一个近似算法,通过采样来实现逃逸概率和 SafeZone 大小的近似。最后给出了相关的实证评估。