多人博弈 -- 音乐椅子方法

Dec, 2015

Multi-Player Bandits -- a Musical Chairs Approach

Jonathan Rosenski, Ohad Shamir, Liran Szlak

TL;DR本研究提出了两种无需通信的算法Musical Chairs和Dynamic Musical Chairs来解决多人博弈中的多臂赌博机问题，其中玩家可能发生碰撞，但不会获得奖励。这些算法有着恒定和次线性的遗憾率，且不需要先验知识，为这类问题解决提供了理论保证。

Abstract

We consider a variant of the stochastic multi-armed bandit problem, where multiple players simultaneously choose from the same set of arms and may collide, receiving no reward. This setting has been motivated by problems arising in →

发现论文，激发创造

并发赌博机与认知无线电网络

提出一种结合 epsilon-greedy 学习规则和避碰机制的算法，用于解决多用户共享多臂赌博问题，应用于认知无线电网络中，实验证明相比其他算法，该算法在此环境中可以显著提高性能，并取得次线性遗憾。

Apr, 2014

通信对非合作式多玩家多臂赌博问题的影响

本研究考虑了多个玩家之间，通过Erdos-Renyi图，以不同的通信概率下的去中心化随机多臂赌博问题，使用UCB1、epsilon-Greedy和Thompson Sampling算法探究了玩家之间的连接度对累计遗憾的影响。

Nov, 2017

多人赌博机问题再探

本文探讨了多层次反馈的多人多臂老虎机算法，并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示，引入这些方法可以提高算法的性能并保证其渐近最优，降低拥堵的可能性。

Nov, 2017

一种渐近最优算法解决多人多臂老虎机问题

研究了分散的随机多臂老虎机问题，在通过Erdős-Rényi图连接的多个玩家中，优化各自获得奖励的概率分布，推导了针对不同连接度的算法，利用累计遗憾值比较传统多臂老虎机算法和本研究。

Dec, 2017

不观测冲突信息的多人赌博机

该研究探讨了多人随机多臂赌博问题，其中玩家不能相互通信，且如果两个或两个以上的玩家拉动同一臂，就会发生碰撞并且涉及到的玩家将不会收到奖励，在此研究中，作者提出了两个反馈模型，即一种可以观察到碰撞是否发生和一种更难的模型，即没有碰撞信息。作者提出了一个算法可以实现对于后者的对数后悔度，以及一个不依赖于平均数之间差距的平方根后悔度型算法。对于前一模型，作者给出了第一个不依赖于差距的深度后悔度。基于这些想法，作者还提出了一种在随机反~协调博弈中快速达成近似纳什均衡的算法。

Aug, 2018

SIC-MMAB: 多人多臂赌博机中涉及通讯的同步

通过构建一种通信协议，使多个玩家之间出现冲突以便以极低成本共享信息的方式，我们提出了一种分散式算法，可实现与集中式一样的性能，以解决基于认知无线电网络的随机多人多臂赌博问题；当通信协议不能实现时，我们介绍了更适当的动态设置，并基于新算法证明了该模型仍可实现对数性后悔的增长。

Sep, 2018

多人赌博机: 对抗情形

设计了第一个能够在任意变化的环境中工作的多人赌博算法，其中武器的损失甚至可能是由对手选择的，同时解决了Rosenski、Shamir和Szlak（2016年）提出的一个悬而未决的问题。

Feb, 2019

非随机多人多臂老虎机：有碰撞信息时达到最优速率，无碰撞信息时次线性

对于（协作式）多人多臂老虎机问题的非随机版本，我们证明了第一个O(√T)-类型的遗憾保证，即使在没有通讯且选择相同行动的情况下也有最大的损失。在反馈模型中，即使对于简单的随机版本，此类约束尚未知。此外，我们还证明了在无冲突信息的情况下反馈模型的第一个亚线性保证，即T ^（1-1 /（2m）），其中m是玩家数量。

Apr, 2019

多人赌博机中的自私鲁棒性和均衡

研究了利用自我私利游戏玩家的多臂赌博机问题，提出了一种能够实现对恶意玩家具有鲁棒性的算法，并构建了两个不同设置下的鲁棒算法，其中一种包括隐式通信的算法，同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。

Feb, 2020

分散式随机多人多臂行走赌博机

提出了一种解决多人多臂赌博机问题的分布式算法，利用上置信区间和分布式优化技术，解决了现实世界应用中玩家仅能访问动态局部子集的问题，并获得了接近最优的后悔率。

Dec, 2022