通过构建一种通信协议,使多个玩家之间出现冲突以便以极低成本共享信息的方式,我们提出了一种分散式算法,可实现与集中式一样的性能,以解决基于认知无线电网络的随机多人多臂赌博问题;当通信协议不能实现时,我们介绍了更适当的动态设置,并基于新算法证明了该模型仍可实现对数性后悔的增长。
Sep, 2018
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020
设计了第一个能够在任意变化的环境中工作的多人赌博算法,其中武器的损失甚至可能是由对手选择的,同时解决了 Rosenski、Shamir 和 Szlak(2016 年)提出的一个悬而未决的问题。
Feb, 2019
本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题,提出去中心化多臂赌博问题,并设计出一种去中心化的在线学习策略,以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中,分别考虑了优先级排序和公平访问策略。
Apr, 2011
提出了两种多用户多臂赌博机算法框架,分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下,通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误,并能够处理用户数量随时间改变的动态问题。
Jul, 2018
该研究探讨了多人随机多臂赌博问题,其中玩家不能相互通信,且如果两个或两个以上的玩家拉动同一臂,就会发生碰撞并且涉及到的玩家将不会收到奖励,在此研究中,作者提出了两个反馈模型,即一种可以观察到碰撞是否发生和一种更难的模型,即没有碰撞信息。作者提出了一个算法可以实现对于后者的对数后悔度,以及一个不依赖于平均数之间差距的平方根后悔度型算法。对于前一模型,作者给出了第一个不依赖于差距的深度后悔度。基于这些想法,作者还提出了一种在随机反~协调博弈中快速达成近似纳什均衡的算法。
Aug, 2018
本文提出了基于多臂赌博机的算法来优化超密集网络中利用授权、共享和非授权频段通信时的信令开销,实现有限时间内的稳定正交分配,降低复杂度,适应动态网络环境。
Dec, 2018
针对多个用户访问相同频道的自组织网络,本研究在缺乏中央协调时,使用探索和承诺策略,通过传输和感知信息的方式,实现接近最优的频道分配,进而提高网络吞吐量,同时击败了现有的算法。
Jan, 2019
本研究提出了两种无需通信的算法 Musical Chairs 和 Dynamic Musical Chairs 来解决多人博弈中的多臂赌博机问题,其中玩家可能发生碰撞,但不会获得奖励。这些算法有着恒定和次线性的遗憾率,且不需要先验知识,为这类问题解决提供了理论保证。
Dec, 2015
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018