BriefGPT.xyz
Ask
alpha
关键词
value iteration-based algorithms
搜索结果 - 2
离线随机最短路径:学习、评估与优化
本文研究了离线情况下有限状态和动作空间下的目标导向强化学习,提出基于简单值迭代的算法来解决离线策略评估和学习任务,并分析了这些算法的强实例相关界限。
PDF
2 years ago
面向目标的 MDP 模型中的死路理论
本文提出了三种新的 MDP 类,允许无法到达的目标,并呈现了具有理论基础的算法,探讨了这些类之间的理论关系,并进行了初步的实证研究。
PDF
12 years ago
Prev
Next