Oct, 2023

在线估计和推断:强化学习中鲁棒政策评估

TL;DR我们在强化学习中开发了一种在线鲁棒的策略评估过程,并基于其巴哈多表示建立了我们估计器的极限分布。此外,我们还开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了一种更多功能和可靠性的方法。最后,我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。