Mar, 2020

上下文阻塞赌博机

TL;DR该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。