Feb, 2013

自适应树形赌博机

TL;DR通过将问题转化为 tree-armed bandits 并提供新结果,我们描述了一种适用于无穷多个多项式极大值的任何连续奖励函数的噪声全局优化和连续臂赌博算法,并在不需要先前信息的情况下实现了臂赌博的平方根遗憾和优化的反平方根误差,并证明了能够自适应地组合多个树以最小化遗憾,并且在缩放维度方面提供了接近匹配的较低界。