ICMLMay, 2024

利用(有偏)信息:带离线数据的多臂老虎机

TL;DR利用离线数据在随机多臂赌博机的在线学习中进行了改进,提出了一个在线策略 MIN-UCB,在给定非平凡上界的情况下优于 UCB,适当地选择使用离线数据以提高性能,理论和实验结果都表明 MIN-UCB 是一个有效的策略。