ICMLJun, 2015

廉价强盗

TL;DR本文提出了 CheapUCB 算法,该算法用于最大化学习的累积奖励,同时保证感知成本最小。此外,作者还就一类有效维度为 d 的图谱建立了一个渐进的下界,即谱臂老虎机的累积遗憾为 Ω(T  sqrt d)。