Nov, 2017

结构化随机赌臂问题中的最小探索

TL;DR介绍了一类广泛的随机赌博问题,其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界,并且开发了OSSB算法,其遗憾匹配了这个基本极限。通过数值实验展示了OSSB的效率,并且证明OSSB优于包括汤普森取样在内的现有算法。