May, 2019

带有完全赌博反馈的 Top-k 组合赌博

TL;DR本研究通过引入 Hadamard 矩阵,提出了一种通用的 CSAR 算法用于解决 top-k 组合赌博问题,针对完全赌博反馈,该算法仅观察奖励总和,在两个变体的算法中,第一个最小化样本复杂性,第二个最小化遗憾,并证明了样本复杂度的下限,该复杂度对于 $k=O (1)$ 来说是紧的。最后,通过实验证明该算法优于其他方法。