Mar, 2024

线性强化学习问题的信息论界限和紧凑遗憾率

TL;DR该论文研究了贝叶斯后悔和汤普森抽样算法在赌博问题中的变体。它建立在信息论框架的基础上,通过率失真分析提供了关于线性赌博问题的后悔率上界。使用链接论证,我们针对度量动作空间的赌博问题建立了新的界限。在奖励的适当连续性假设下,我们的界限为 d 维线性赌博问题提供了紧凑的速率。