ICMLSep, 2017

机会主义赌博机的自适应勘探和开发平衡

TL;DR提出了一种新型武器 - 机会主义强盗,研究了不同环境条件下拉取次优武器的损失,提出了一种自适应上置信界算法(AdaUCB)来平衡开采 - 探索的权衡,证明了 AdaUCB 的性能优于传统算法,并在合成数据和真实世界的实验结果中得到了验证。