Jan, 2018

非参数随机情境臂机

TL;DR探讨K-armed bandit问题下的noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的top-arm identification和sublinear regret边界,并讨论了该算法的全局intrisinic dimension和ambient dimension的regret边界,同时介绍了对于无限武装情境下bandit算法的扩展和实验证明了算法在多种任务上的优越性。