BriefGPT.xyz
Sep, 2019
部分可观测环境中的离线策略评估
Off-Policy Evaluation in Partially Observable Environments
HTML
PDF
Guy Tennenholtz, Shie Mannor, Uri Shalit
TL;DR
该论文研究了部分可观察环境下的强化学习离线策略评估的问题,针对部分可观察的马尔可夫决策过程(POMDPs)建立了离线策略评估的模型,并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。
Abstract
This work studies the problem of batch
off-policy evaluation
for
reinforcement learning
in
partially observable environments
.
→