Feb, 2019

具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计

TL;DR研究带有协变量的多臂赌博问题,在可能存在奖励延迟的情况下,通过对延迟的概率分布进行一些温和假设,并使用适当的随机选择武器策略,证明了该策略的强一致性。