Jul, 2020
具有潜在混淆因素的无限时段强化学习中的离线评估
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders
TL;DR针对强化学习领域中的Off-policy Evaluation问题,本研究提出了一种基于无法观测到的干扰变量的无限时域Markov决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从Off-policy数据中识别政策价值。