BriefGPT.xyz
Ask
alpha
关键词
regret-bound computation
搜索结果 - 1
无限时标平均奖励马尔可夫决策过程中策略梯度算法的遗憾分析
本文研究了无限时间段平均回报马尔可夫决策过程(MDP)。与现有研究不同的是,我们采用了基于通用策略梯度的算法,使其摆脱了线性 MDP 结构的约束。我们提出了一种基于策略梯度的算法,并证明了其全局收敛性质。然后我们证明该算法具有 $\tild
→
PDF
10 months ago
Prev
Next