Feb, 2020
带余量自助法探索赌博算法
Residual Bootstrap Exploration for Bandit Algorithms
Chi-Hua Wang, Yang Yu, Botao Hao, Guang Cheng
TL;DR提出了一种新的基于扰动的探索算法,称为残差引导探索(ReBoot),能够从概率角度揭示样本误差的分布特性,从而逃离次优解。实验结果表明,该算法在解决非有界奖励的固定赌博机问题时比现有算法更稳健,并表现出与 Thompson 采样方法相当的计算效率。