Jul, 2015

组合级联赌博机

TL;DR提出了组合级联赌博算法,对分布随机的约束问题解决一类非线性奖励函数部分可观测性问题,提供了一种基于UCB算法的求解方法,并论证了与时间复杂度无关的期望损失界限和时间关联的损失上限。在两个真实世界的网络路径问题测试中,算法表现良好,说明该算法对于模型假设违反的情况同样稳健有效,这个设置还需要提出新的学习算法。