关键词contextual linear bandit
搜索结果 - 3
- 在线聚类误指定用户模型的赌博机
提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题,设计了两种鲁棒性算法,能适应不准确的用户偏好评估和模型错误导致的聚类问题,证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。
- 差分隐私联合线性赌博机算法
本文就基于上下文线性赌博机的联邦学习问题提出了一种称为 FedUCB 的多代理私有算法,该算法在中央化和去中心化(点对点)联邦学习方案中均可使用,在保证通信隐私的同时,在后遗憾度和隐私保证方面表现出极强的实用性。
- 带线性约束的随机赌博机
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。