部分可观测环境中的离线策略评估

Sep, 2019

Off-Policy Evaluation in Partially Observable Environments

Guy Tennenholtz, Shie Mannor, Uri Shalit

TL;DR该论文研究了部分可观察环境下的强化学习离线策略评估的问题，针对部分可观察的马尔可夫决策过程（POMDPs）建立了离线策略评估的模型，并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。

Abstract

This work studies the problem of batch off-policy evaluation for reinforcement learning in partially observable environments.