NIPSJul, 2017

驯服非平稳赌博机:一种贝叶斯方法

TL;DR针对非平稳环境下的多臂赌博问题,提出了一种基于贝叶斯方法的 Thompson Sampling 变体,对其进行了系统性降低先前观测效果的描述,通过增加贝叶斯采样的功利值提供了最优化算法的乐观版本,并进行了广泛的实证分析和与各种算法的比较研究。