本文提出了一种新的分布式在线学习框架,将学习者建模为合作的情境赌博机,分析了分布式在线学习算法和完全知识基准的效率,研究表明后者在时间上失误是亚线性的,该理论框架可用于许多实际应用中,包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。
Aug, 2013
本文提出了一种基于KernelUCB算法在具有相似性但动作数量巨大的问题中进行在线奖励最大化,适用于重现核希尔伯特空间中的任意线性奖励函数。
Sep, 2013
研究多臂赌博机在$k$个协作玩家中进行探索,以确定最佳手臂,结果表明协作与沟通可以实现更快的学习速度, 最佳方案是$k$倍的学习性能加速,且通信量只有$log(1/ε)$。
Nov, 2013
本文研究了合作多智能体决策问题中的基于核的上下文平衡问题,提出了 Coop-KernelUCB 算法并在多个实验中验证其表现优于现有基准算法。
Aug, 2020
本文就基于上下文线性赌博机的联邦学习问题提出了一种称为 FedUCB 的多代理私有算法,该算法在中央化和去中心化(点对点)联邦学习方案中均可使用,在保证通信隐私的同时,在后遗憾度和隐私保证方面表现出极强的实用性。
Oct, 2020
研究了在核化赌博机问题中,在未知正则性的情况下学习算法是否能够自适应于相关核函数的正则性。通过研究转化不变核的正则性自适应性,我们推导出自适应性的下限,证明不可能在具有不同规则性的RKHS对中同时实现最优累计遗憾。通过连接在不同功能空间中自适应的统计困难性,我们展示了这一下限的紧密性。
Apr, 2023
该研究提出了一种基于核的上下文臂策略,使用在线加权核岭回归估算器对奖励函数进行估算,并在一定条件下证明了该估计器的一致性,同时针对任何核和相应的RKHS均可实现次线性遗憾率和最优遗憾率。
Jun, 2023
该研究论文提出了一种基于分布式优化和多臂赌博算法(Multi-armed bandit)的全分散算法(Multi-agent IGP-UCB),以最小化代理间的遗憾值,并在保护隐私的同时提供了改进的性能。
Dec, 2023
我们研究了具有异质代理的随机线性情境赌博机的保守式分布式多任务学习问题,提出了一种名为DiSC-UCB的分布式上置信界算法,并证明了该算法的遗憾和通信界限。此外,我们还将问题扩展到代理人不知道基准奖励的情况,并通过修改算法DiSC-UCB2来实现相同的遗憾和通信界限,我们通过合成数据和真实世界Movielens-100K数据对算法的性能进行了实证验证。
Jan, 2024
我们提出了第一个算法,它以次线性的通信成本实现了最佳的(以集中式学习定义的)遗憾顺序,通过局部智能的均匀探索和与中央服务器共享随机性这两个关键组成部分与GP模型的稀疏近似共同作用,能够以递减的通信速率保持集中设置的学习速率。
Feb, 2024