Jul, 2019

合作非随机多臂老虎机中的个体遗憾

TL;DR研究通过交换信息在底层网络上通信的代理,以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法,其中保证每个代理v的期望遗憾都是(1+K/|N(v)|)^T的平方根量级。