异步多人赌博机中的常数或对数遗憾

May, 2023

异步多人赌博机中的常数或对数遗憾

Constant or logarithmic regret in asynchronous multiplayer bandits

Hugo Richard, Etienne Boursier, Vianney Perchet

TL;DR研究了多人赌注问题在异步设备中的实际应用和中心化算法的最小化后悔值，介绍了谨慎贪婪算法并证明其在数据依赖术语方面是最优的。

Abstract

multiplayer bandits have recently been extensively studied because of their application to cognitive radio networks. While the literature mostly considers synchronous players, radio networks (e.g. for IoT) tend to have

发现论文，激发创造

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

并发赌博机与认知无线电网络

提出一种结合 epsilon-greedy 学习规则和避碰机制的算法，用于解决多用户共享多臂赌博问题，应用于认知无线电网络中，实验证明相比其他算法，该算法在此环境中可以显著提高性能，并取得次线性遗憾。

Apr, 2014

分散式多人多臂搶錢機中的遺憾最小學習

该研究考虑了单人和多人多臂老虎机模型的学习问题，提出了两种可分散策略，即E³ (立方)和E³-TS，它们显示出预期遗憾增长的上限为O(log^(1+ε)T)，并解决了分散的在线学习所产生的附加成本问题。

May, 2015

多人博弈 -- 音乐椅子方法

本研究提出了两种无需通信的算法Musical Chairs和Dynamic Musical Chairs来解决多人博弈中的多臂赌博机问题，其中玩家可能发生碰撞，但不会获得奖励。这些算法有着恒定和次线性的遗憾率，且不需要先验知识，为这类问题解决提供了理论保证。

Dec, 2015

多人赌博机问题再探

本文探讨了多层次反馈的多人多臂老虎机算法，并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示，引入这些方法可以提高算法的性能并保证其渐近最优，降低拥堵的可能性。

Nov, 2017

一种渐近最优算法解决多人多臂老虎机问题

研究了分散的随机多臂老虎机问题，在通过Erdős-Rényi图连接的多个玩家中，优化各自获得奖励的概率分布，推导了针对不同连接度的算法，利用累计遗憾值比较传统多臂老虎机算法和本研究。

Dec, 2017

SIC-MMAB: 多人多臂赌博机中涉及通讯的同步

通过构建一种通信协议，使多个玩家之间出现冲突以便以极低成本共享信息的方式，我们提出了一种分散式算法，可实现与集中式一样的性能，以解决基于认知无线电网络的随机多人多臂赌博问题；当通信协议不能实现时，我们介绍了更适当的动态设置，并基于新算法证明了该模型仍可实现对数性后悔的增长。

Sep, 2018

合作非随机多臂老虎机中的个体遗憾

研究通过交换信息在底层网络上通信的代理，以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法，其中保证每个代理v的期望遗憾都是（1+K/|N(v)|)^T的平方根量级。

Jul, 2019

多人赌博机中的自私鲁棒性和均衡

研究了利用自我私利游戏玩家的多臂赌博机问题，提出了一种能够实现对恶意玩家具有鲁棒性的算法，并构建了两个不同设置下的鲁棒算法，其中一种包括隐式通信的算法，同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。

Feb, 2020

无噪音奖励和无通信的最佳合作多人学习赌博机

合作多人奖励学习中，通信受限的策略选择问题；通过使用上界和下界置信度算法，解决信息不对称导致的动作选择问题，并达到对数和平方根极限遗憾值。

Nov, 2023