May, 2019

OSOM: 一种用于多臂和线性上下文赌博机的同时最优算法

TL;DR我们设计了一个算法,能够同时在简单多臂赌博机模式下获得问题相关的最优遗憾率和在线性上下文赌博机模式下获得极小化最优遗憾率,而不需要事先知道哪种模型产生了奖励。