BriefGPT.xyz
Ask
alpha
关键词
restless bandit problems
搜索结果 - 2
非周期性不安定赌博机中的汤普森抽样
本文研究了在未知奖励分布下使用 Thompson 采样算法来解决不断变化的赌博机问题,证明了一种子线性的,O (sqrt (T) log T) 的遗憾上限,并将算法测试在了一个动态信道接入问题的模拟中,实证结果与理论上限一致。
PDF
5 years ago
具有时间性的多臂赌博机问题中汤普森抽样的遗憾界
本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题,在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者,证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活,可以表示各种基准,包括最佳固定操作策略,最优策略,惠特尔指数
→
PDF
5 years ago
Prev
Next