Mar, 2020

MOTS:极小极大化优化的汤普森采样

TL;DR本文提出了一种名为 MOTS 的变体,它能够自适应地削减每个时间步骤中所选臂的采样实例,并证明了这种变体算法能够实现多臂赌博问题的最小化最优表现。