Jan, 2022

离散马尔可夫决策过程上的安全策略改进方法

TL;DR介绍了一个新的算法,它可以在有限的马尔可夫决策过程上提供安全保障,并且在两个基准测试中展现出最佳表现。同时,提出了一个 SPI 算法的分类法,发现想法限制政策集合的算法更为安全。