Jun, 2020
组合半臂老虎机的汤普森抽样的统计效率
Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits
TL;DR本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析,进而找到了这两种分布情况下的算法解决方案,从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。