Mar, 2023

具有线性功能逼近的重尾奖励方差感知健壮增强学习

TL;DR该论文提出了两个算法 - AdaOFUL 和 VARA,以解决在有限方差的重尾回报情况下的在线顺序决策问题。这些算法可以应用于线性随机赌博机和线性马尔可夫决策过程,并且新的算法优于之前的算法。其中AdaOFUL和算法Huber回归适应进行对于重尾回报的处理,VARA则提供了更紧的可变方差回报较紧的方案。