Jan, 2023

双重对抗联合赌博机

TL;DR研究具有多个代理通过通信网络合作的新的非随机联邦多臂老虎机问题,其中危害的损失是由特指所有代理的每个时间步长和每个代理的每个手臂的损失的笨拙对手分配的。对于任何联邦老虎机算法,根据不同的设置提供遗憾下限,当代理有完整信息反馈或老虎机反馈时。在老虎机反馈设置下,提出一种接近最优的联邦老虎机算法 FEDEXP3,证明 FEDEXP3 可以保证不交换代理之间选择的手臂编号或损失序列的情况下得到次线性遗憾。还提供我们算法的数值评估以验证我们的理论结果,并证明其在合成和现实世界数据集上的有效性。