Jun, 2022

具有时间分区奖励的多臂赌博机问题:部分反馈的重要性

TL;DR论文研究了一种新颖的赌臂算法,名为具有时间分区奖励的多臂赌博机(TP-MAB),解决了工业在线应用中数据逐步变得可用的问题,并通过提供两种算法解决TP-MAB问题,证明了该算法与当今最好的延迟反馈赌臂算法相比较而言,在典型情况下,效果更好。