BriefGPT.xyz
Ask
alpha
关键词
optimality error
搜索结果 - 1
自然策略梯度算法对无限时间折扣回报马尔可夫决策过程的参数化泛化的样本复杂度改进
设计高效学习算法解决无限时间折扣奖励马尔可夫决策过程问题,提出了应用加速随机梯度下降过程获取自然策略梯度的加速自然策略梯度算法(ANPG)。ANPG 在一般参数化情况下,实现了 O (ε^-2) 的样本复杂度和 O (ε^-1) 的迭代复杂
→
PDF
9 months ago
Prev
Next