Jun, 2019
针对具有无限奖励的多臂赌博机的分布式无感知、风险感知算法
Distribution oblivious, risk-aware algorithms for multi-armed bandits with unbounded rewards
Anmol Kagrecha, Jayakrishnan Nair, Krishna Jagannathan
TL;DR本文研究一个选择 arm 的问题,它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化,同时提出了一类可证明上限的算法,并比较其在非 oblivious 算法中的误差边界与实际表现(数字化实验)的竞争性。