Jul, 2020

具有潜在混淆因素的无限时段强化学习中的离线评估

TL;DR针对强化学习领域中的 Off-policy Evaluation 问题,本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从 Off-policy 数据中识别政策价值。