Jun, 2024

线性上下文强化学习与混合回报:重温

TL;DR在混合奖励设置下,我们研究了线性情境赌博问题,提出了适用于具有不同参数的各个臂传递奖励模型,并引入了新的探索系数的新算法HyLinUCB,通过实验证明其在合成和真实数据集上的性能明显优于其他算法。