Jul, 2022

广义线性赌博机中的延迟反馈:重访

TL;DR本文以延迟反馈形式的一般化线性赌博机作为研究对象,通过设计乐观的算法,使得其失效惩罚与决策次数无关,从而大幅提高了现有研究中最优遗憾界的表现。