BriefGPT.xyz
Ask
alpha
关键词
sno-mdp algorithm
搜索结果 - 1
ICML
受限马尔可夫决策过程中安全的强化学习
该研究提出了一种名为 SNO-MDP 的算法,它可以在未知安全约束条件下探索和优化马尔可夫决策过程,通过扩展安全区域来学习安全约束条件,进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。
PDF
4 years ago
Prev
Next