BriefGPT.xyz
Ask
alpha
关键词
safe demonstrations
搜索结果 - 1
从未知奖励的演示中学习安全约束
该研究提出了凸约束学习用于强化学习的方法,该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程(CMDP)中的约束。与以往的方法不同,该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集,从而保证安全性
→
PDF
a year ago
Prev
Next