BriefGPT.xyz
Ask
alpha
关键词
safe mdp planning
搜索结果 - 1
通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划
本文介绍了一种用于安全 MDP 规划的方法,它基于对状态 - 动作轨迹的安全度量,用监督学习模型学习非马尔可夫安全模式,并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明,该方法可以满足非马尔可夫的安全约束条件,比
→
PDF
a year ago
Prev
Next