Jan, 2013

通过后验抽样学习优化

TL;DR本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作,称为 Thompson Sampling,理论上提出了后验抽样与 UCB 算法的联系,并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。