BriefGPT.xyz
Ask
alpha
关键词
infinite-horizon optimal control
搜索结果 - 1
自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和
→
PDF
2 years ago
Prev
Next