Sep, 2022

带虚拟协助代理的汤普森抽样

TL;DR文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。