BriefGPT.xyz
Ask
alpha
关键词
stationary policies
搜索结果 - 2
多项式时间的无界强化学习:静态策略的威力
本文提出了第一个针对有限 MDP 多项式时间算法,具有独立于计划时间的后悔范围,并通过一系列的新结构引理,建立了稳定性和专注性,提高了 MDP 的近似能力和性能。
PDF
2 years ago
使用线性函数逼近的随机最短路径问题的遗憾界限
该研究提出了一种使用线性函数逼近算法的随机最短路径问题的算法,具有次线性 regret、计算效率高、使用平稳策略等特点,是该领域内第一种此类算法。
PDF
3 years ago
Prev
Next