Jul, 2017

有限时间内动态赌博机渐近最优指数策略

TL;DR该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略,利用模拟证明其表现优于现有启发式方法。