Jan, 2024

分布式多任务学习:面向随机赌博机的背景分布与阶段约束

TL;DR我们研究了具有异质代理的随机线性情境赌博机的保守式分布式多任务学习问题,提出了一种名为DiSC-UCB的分布式上置信界算法,并证明了该算法的遗憾和通信界限。此外,我们还将问题扩展到代理人不知道基准奖励的情况,并通过修改算法DiSC-UCB2来实现相同的遗憾和通信界限,我们通过合成数据和真实世界Movielens-100K数据对算法的性能进行了实证验证。