Jun, 2022

离线随机最短路径:学习、评估与优化

TL;DR本文研究了离线情况下有限状态和动作空间下的目标导向强化学习,提出基于简单值迭代的算法来解决离线策略评估和学习任务,并分析了这些算法的强实例相关界限。