Oct, 2023

离散选择多臂赌博机

TL;DR通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系,本文的两个主要贡献是提供了一类算法的次线性遗憾界,包括 Exp3 算法作为特例,并引入了一类新的对抗多臂赌博算法,借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型,这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施,我们进行了数值实验,重点关注随机赌博的情况。