异步多人赌博机中的常数或对数遗憾
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
提出一种结合 epsilon-greedy 学习规则和避碰机制的算法,用于解决多用户共享多臂赌博问题,应用于认知无线电网络中,实验证明相比其他算法,该算法在此环境中可以显著提高性能,并取得次线性遗憾。
Apr, 2014
该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
本研究提出了两种无需通信的算法Musical Chairs和Dynamic Musical Chairs来解决多人博弈中的多臂赌博机问题,其中玩家可能发生碰撞,但不会获得奖励。这些算法有着恒定和次线性的遗憾率,且不需要先验知识,为这类问题解决提供了理论保证。
Dec, 2015
本文探讨了多层次反馈的多人多臂老虎机算法,并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示,引入这些方法可以提高算法的性能并保证其渐近最优,降低拥堵的可能性。
Nov, 2017
研究了分散的随机多臂老虎机问题,在通过Erdős-Rényi图连接的多个玩家中,优化各自获得奖励的概率分布,推导了针对不同连接度的算法,利用累计遗憾值比较传统多臂老虎机算法和本研究。
Dec, 2017
通过构建一种通信协议,使多个玩家之间出现冲突以便以极低成本共享信息的方式,我们提出了一种分散式算法,可实现与集中式一样的性能,以解决基于认知无线电网络的随机多人多臂赌博问题;当通信协议不能实现时,我们介绍了更适当的动态设置,并基于新算法证明了该模型仍可实现对数性后悔的增长。
Sep, 2018
研究通过交换信息在底层网络上通信的代理,以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法,其中保证每个代理v的期望遗憾都是(1+K/|N(v)|)^T的平方根量级。
Jul, 2019
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020