BriefGPT.xyz
Ask
alpha
关键词
lagrange multiplier method
搜索结果 - 2
约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析
通过应用 Lagrange 乘数法,我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析,并证明这些算法在非独立同分布(Markovian)环境中能够找到性能
→
PDF
8 months ago
通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划
本文介绍了一种用于安全 MDP 规划的方法,它基于对状态 - 动作轨迹的安全度量,用监督学习模型学习非马尔可夫安全模式,并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明,该方法可以满足非马尔可夫的安全约束条件,比
→
PDF
a year ago
Prev
Next