Jan, 2018
非参数随机情境臂机
Nonparametric Stochastic Contextual Bandits
TL;DR探讨K-armed bandit问题下的noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的top-arm identification和sublinear regret边界,并讨论了该算法的全局intrisinic dimension和ambient dimension的regret边界,同时介绍了对于无限武装情境下bandit算法的扩展和实验证明了算法在多种任务上的优越性。