Sep, 2022

马尔科夫决策过程中的离线风险评估

TL;DR本研究探讨了在强化学习中应用基于模型的方法改进off-policy risk的估计,构建了第一个适用于MDPs的双重稳健估计器,提高了估计精度并实现了Cramer-Rao方差下界。