AAAIAug, 2020

多臂赌博机的宽容遗憾

TL;DR本文提出了一种忽略一定程度下最优性差距的 Bandit 算法,并以其为基础,设计优化算法 Thompson Sampling (ε-TS)。研究结果表明,该算法能够在一定程度上避免过度探索问题,并在保证性能的前提下,提高计算效率。