MMFeb, 2018

部分揭示单位区间图上的多臂赌博机

TL;DR研究了具有相似性和不相似性的测臂的随机多臂赌博问题,并提出了一种基于在线汇总奖励观察结果的离线行动空间缩减及在线聚合的通用两步学习结构,旨在充分利用侧面信息的拓扑结构。验证了学习策略的计算效率和顺序最优性,无论是在行动空间大小还是时间长度上。