BriefGPT.xyz
Ask
alpha
关键词
value-policy duality
搜索结果 - 1
随机线性规划以几乎线性(有时是亚线性)的运行时间解决折扣马尔科夫决策问题
提出一种新的随机线性规划算法,利用价值 - 策略对偶和二叉树数据结构,自适应地采样状态 - 动作 - 状态转移,并进行指数原始 - 对偶更新,从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些
→
PDF
7 years ago
Prev
Next