BriefGPT.xyz
Ask
alpha
关键词
metric action space
搜索结果 - 1
线性强化学习问题的信息论界限和紧凑遗憾率
该论文研究了贝叶斯后悔和汤普森抽样算法在赌博问题中的变体。它建立在信息论框架的基础上,通过率失真分析提供了关于线性赌博问题的后悔率上界。使用链接论证,我们针对度量动作空间的赌博问题建立了新的界限。在奖励的适当连续性假设下,我们的界限为 d
→
PDF
5 months ago
Prev
Next