Sep, 2019

部分可观测环境中的离线策略评估

TL;DR该论文研究了部分可观察环境下的强化学习离线策略评估的问题,针对部分可观察的马尔可夫决策过程(POMDPs)建立了离线策略评估的模型,并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。