BriefGPT.xyz
Ask
alpha
关键词
asymptotic performance-loss bounds
搜索结果 - 1
动态策略编程
本文提出了一种新的策略迭代方法 —— 动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界,通过数值实验表明,与现有的强化
→
PDF
14 years ago
Prev
Next