多人赌博机问题再探
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
提出了一种解决多人多臂赌博机问题的分布式算法,利用上置信区间和分布式优化技术,解决了现实世界应用中玩家仅能访问动态局部子集的问题,并获得了接近最优的后悔率。
Dec, 2022
介绍了一个分布式算法来解决多臂赌博机问题,通过异步交换较少的比特数,在不进行样本交换的情况下,仅通过传递臂 ID 来维护代理之间的合作;文中提出的算法可以将每个代理的后悔最小化,并将通信复杂度降至 $O (logT)$,与不进行合作的方案相比,本算法能够显著降低每个代理的后悔。
Oct, 2019
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上学习算法的性能下界,为实际应用不同算法提供了实用性建议。
Nov, 2020
本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题,并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法,该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。
Nov, 2021
在多人多臂老虎机(MPMAB)竞争模型中,我们提出了基于纳什均衡的自私 MPMAB 和平均分配(SMAA)策略,有效解决了自私玩家学习和最大化奖励的问题,并在理论和实验中证明其有效性和稳健性。
May, 2023
提出了两种多用户多臂赌博机算法框架,分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下,通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误,并能够处理用户数量随时间改变的动态问题。
Jul, 2018
该研究通过开发一种完全分散的鲁棒上置信界算法,将信息混合步骤与不一致和极端值的截断步骤结合起来,以恢复分散合作多臂赌博中的有效行为,提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法,并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。
Oct, 2023