Feb, 2020

带余量自助法探索赌博算法

TL;DR提出了一种新的基于扰动的探索算法,称为残差引导探索(ReBoot),能够从概率角度揭示样本误差的分布特性,从而逃离次优解。实验结果表明,该算法在解决非有界奖励的固定赌博机问题时比现有算法更稳健,并表现出与 Thompson 采样方法相当的计算效率。