Mar, 2023
具有线性功能逼近的重尾奖励方差感知健壮增强学习
Variance-aware robust reinforcement learning with linear function
approximation with heavy-tailed rewards
TL;DR该论文提出了两个算法 - AdaOFUL 和 VARA,以解决在有限方差的重尾回报情况下的在线顺序决策问题。这些算法可以应用于线性随机赌博机和线性马尔可夫决策过程,并且新的算法优于之前的算法。其中AdaOFUL和算法Huber回归适应进行对于重尾回报的处理,VARA则提供了更紧的可变方差回报较紧的方案。