多人赌博机:对抗情形
提出一种结合 epsilon-greedy 学习规则和避碰机制的算法,用于解决多用户共享多臂赌博问题,应用于认知无线电网络中,实验证明相比其他算法,该算法在此环境中可以显著提高性能,并取得次线性遗憾。
Apr, 2014
提出了一种解决多人多臂赌博机问题的分布式算法,利用上置信区间和分布式优化技术,解决了现实世界应用中玩家仅能访问动态局部子集的问题,并获得了接近最优的后悔率。
Dec, 2022
本论文针对多人随机多臂老虎机问题中,玩家无法通信且产生碰撞时得分为零的情形。解决了不同玩家可能具有不同的均值的异质设置,并提出了一种新的有效算法,结合了强制碰撞的隐式通信和匹配消除的思路。并给出了有限时间分析,证明了该算法的次线性极大遗憾界,解决了 NeurIPS2018 的一个开放性问题。
Feb, 2019
通过构建一种通信协议,使多个玩家之间出现冲突以便以极低成本共享信息的方式,我们提出了一种分散式算法,可实现与集中式一样的性能,以解决基于认知无线电网络的随机多人多臂赌博问题;当通信协议不能实现时,我们介绍了更适当的动态设置,并基于新算法证明了该模型仍可实现对数性后悔的增长。
Sep, 2018
本研究提出了两种无需通信的算法 Musical Chairs 和 Dynamic Musical Chairs 来解决多人博弈中的多臂赌博机问题,其中玩家可能发生碰撞,但不会获得奖励。这些算法有着恒定和次线性的遗憾率,且不需要先验知识,为这类问题解决提供了理论保证。
Dec, 2015
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020
该研究探讨了多人随机多臂赌博问题,其中玩家不能相互通信,且如果两个或两个以上的玩家拉动同一臂,就会发生碰撞并且涉及到的玩家将不会收到奖励,在此研究中,作者提出了两个反馈模型,即一种可以观察到碰撞是否发生和一种更难的模型,即没有碰撞信息。作者提出了一个算法可以实现对于后者的对数后悔度,以及一个不依赖于平均数之间差距的平方根后悔度型算法。对于前一模型,作者给出了第一个不依赖于差距的深度后悔度。基于这些想法,作者还提出了一种在随机反~协调博弈中快速达成近似纳什均衡的算法。
Aug, 2018
本文探讨了多层次反馈的多人多臂老虎机算法,并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示,引入这些方法可以提高算法的性能并保证其渐近最优,降低拥堵的可能性。
Nov, 2017
本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题,该算法对每个网络节点(用户)分配了一个 Bandit 算法,并允许其与相邻节点共享信息,与传统 Contextual Bandit 方法相比,实验结果表明该算法在预测性能方面有显著提高。
Jun, 2013
合作多智能体多臂赌博 (CMA2B) 考虑多个智能体在共享多臂赌博游戏中的协作努力。我们研究了这种合作暴露出的潜在弱点,并考虑对一些智能体进行敌对攻击,以影响其他智能体的决策。我们提出了攻击策略,通过仅针对一个智能体,使所有智能体在选择一个特定目标臂 T-o (T) 次的同时,承担 o (T) 次攻击成本,在 T 轮中产生了攻击策略。在异构设置中,我们证明了对目标臂的攻击需要具有线性攻击成本,并提出了可以迫使最大数量的智能体遭受线性遗憾的攻击策略,同时仅操纵少数目标智能体的观察。数值实验证实了我们提出的攻击策略的有效性。
Nov, 2023