BriefGPT.xyz
Ask
alpha
关键词
queueing mdps
搜索结果 - 1
自然策略梯度在无限状态平均奖励马尔可夫决策过程上的收敛性
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为 O (1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现 O (1/√T
→
PDF
5 months ago
Prev
Next