BriefGPT.xyz
Ask
alpha
关键词
shields
搜索结果 - 2
安全的 POMDP 在线规划方法之护盾技术
本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程(POMDPs)中的不确定性问题,其中通过计算和整合防护盾到在线规划算法(POMCP)中以确保安全性。实验结果表明,该方法在大型 POMDPs 中成功地保证了安全性,并对在线规划
→
PDF
10 months ago
部分可观测情况下的屏蔽防护强化学习
研究了强化学习中的安全探索问题,提出了一种叫做 shield 的方法来确保代理人只进行安全的操作,并深度结合使用 state-of-the-art deep RL 来提高 RL 代理人的性能,实验证明这种方法可以提高收敛速度和最终表现,并可
→
PDF
2 years ago
Prev
Next