Sep, 2012

基于线性回报的情境型贝叶斯 - 汤普森抽样算法

TL;DR本文设计和分析了一种基于贝叶斯思想的 Thompson Sampling 算法泛化版本,用于解决带有线性收益函数的随机上下文多臂老虎机问题,同时提供了该算法的第一理论保证,得到了最佳遗憾保证。