Feb, 2024

关于未来依赖值函数中未来与历史的诅咒对于离策略评估的影响

TL;DR我们研究部分可观察环境中的离策略评估(OPE),旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程(POMDP)结构相关的新覆盖假设和具有互补性质的新算法。