Oct, 2023

使用重尾分布奖励的鲁棒离线策略评估和优化

TL;DR这篇论文旨在增强离线强化学习在实际应用场景中具有重尾奖励的鲁棒性。我们提出了两个算法框架 ROAM 和 ROOM,分别用于鲁棒的离线策略评估和离线策略优化。这些框架的核心是将均值中位数方法与离线强化学习相结合,从而能够直接估计值函数估计器的不确定性。理论结果和广泛的实验证明,我们的两个框架在具有重尾奖励分布的日志数据集上优于现有方法。