BriefGPT.xyz
Ask
alpha
关键词
sublinear rate
搜索结果 - 1
全局收敛性:在平均奖励马尔可夫决策过程中的策略梯度
该研究报告首次提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言,我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明,策略梯度迭代以 O (log (T)) 的子线性
→
PDF
4 months ago
Prev
Next