Dec, 2016

驯服一群强盗算法

TL;DR通过结合多个赌博机算法,创建一个主算法,它可以像单独运行的最优基础算法一样表现优秀。本文通过 Online Mirror Descent 和学习率算法,实现了更好地权衡探索和利用基础算法,达到了更好的拒绝界。这些结果可以应用于多种情况,如多臂赌博机、上下文赌博机和凸赌博机,并且提出了两种主要应用:第一种是在环境相对容易时,同时享有最坏情况的稳健性和最好的表现,第二种是在不同的先验参数或不同的损失结构下同时工作。