Jun, 2019

针对具有无限奖励的多臂赌博机的分布式无感知、风险感知算法

TL;DR本文研究一个选择 arm 的问题,它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化,同时提出了一类可证明上限的算法,并比较其在非 oblivious 算法中的误差边界与实际表现(数字化实验)的竞争性。