May, 2016

学习中的公平性:经典和情境赌博机

TL;DR本研究介绍了多臂赌博问题中的公平性概念以及提出了基于“chained”置信区间的多臂赌博问题的可证公平算法,并证明了任何公平算法必须具有该算法的时间复杂度,同时也证明了公平和非公平学习之间有强烈的界限。在一般情境中,本研究证明了公平性与KWIK学习模型的紧密联系,并提出了一种多项式时间复杂度的可证公平算法来解决线性上下文赌博问题。