Sep, 2014

具有图结构反馈的非随机多臂赌博机

TL;DR本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。