BriefGPT.xyz
Feb, 2024
关于未来依赖值函数中未来与历史的诅咒对于离策略评估的影响
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
HTML
PDF
Yuheng Zhang, Nan Jiang
TL;DR
我们研究部分可观察环境中的离策略评估(OPE),旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程(POMDP)结构相关的新覆盖假设和具有互补性质的新算法。
Abstract
We study
off-policy evaluation
(OPE) in
partially observable environments
with
complex observations
, with the goal of developing estimator
→