BriefGPT.xyz
Jan, 2013
通过后验抽样学习优化
Learning to Optimize Via Posterior Sampling
HTML
PDF
Daniel Russo, Benjamin Van Roy
TL;DR
本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作,称为 Thompson Sampling,理论上提出了后验抽样与 UCB 算法的联系,并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。
Abstract
This paper considers the use of a simple
posterior sampling
algorithm for handling the
exploration-exploitation
trade-off when learning to optimize actions such as in
→