BriefGPT.xyz
Ask
alpha
关键词
uncertainty penalty
搜索结果 - 1
离散马尔可夫决策过程上的安全策略改进方法
介绍了一个新的算法,它可以在有限的马尔可夫决策过程上提供安全保障,并且在两个基准测试中展现出最佳表现。同时,提出了一个 SPI 算法的分类法,发现想法限制政策集合的算法更为安全。
PDF
2 years ago
Prev
Next