Sep, 2022

马尔科夫决策过程中的离线风险评估

TL;DR本研究探讨了在强化学习中应用基于模型的方法改进 off-policy risk 的估计,构建了第一个适用于 MDPs 的双重稳健估计器,提高了估计精度并实现了 Cramer-Rao 方差下界。