May, 2024

具有网络干扰的多臂赌博机

TL;DR通过研究在线干预实验中的干扰问题,我们提出了基于线性回归算法的多臂赌博机策略,以最小化后悔并实现低后悔的任务分配。