NIPSNov, 2017

基于行动中心的上下文分组赌博机算法

TL;DR为延伸时间不变线性模型假设限制,我们提出了一种上下文 Bandits 的线性模型扩展,该模型具有基线奖励和处理效应两个部分,并已在移动健康研究中做了实验证明其有效性。