多人多臂赌博机中，争夺可共享臂

May, 2023

多人多臂赌博机中，争夺可共享臂

Competing for Shareable Arms in Multi-Player Multi-Armed Bandits

Renzhe Xu, Haotian Wang, Xingxuan Zhang, Bo Li, Peng Cui

TL;DR在多人多臂老虎机（MPMAB）竞争模型中，我们提出了基于纳什均衡的自私MPMAB和平均分配（SMAA）策略，有效解决了自私玩家学习和最大化奖励的问题，并在理论和实验中证明其有效性和稳健性。

Abstract

Competitions for shareable and limited resources have long been studied with strategic agents. In reality, agents often have to learn and maximize the rewards of the resources at the same time. To design an individualized competing policy, we model the competition between agents in a n

发现论文，激发创造

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

分散式多人多臂搶錢機中的遺憾最小學習

该研究考虑了单人和多人多臂老虎机模型的学习问题，提出了两种可分散策略，即E³ (立方)和E³-TS，它们显示出预期遗憾增长的上限为O(log^(1+ε)T)，并解决了分散的在线学习所产生的附加成本问题。

May, 2015

一种渐近最优算法解决多人多臂老虎机问题

研究了分散的随机多臂老虎机问题，在通过Erdős-Rényi图连接的多个玩家中，优化各自获得奖励的概率分布，推导了针对不同连接度的算法，利用累计遗憾值比较传统多臂老虎机算法和本研究。

Dec, 2017

匹配市场中的竞争赌徒

本研究提出了一种统计学习模型，用于解决双边市场中的稳定匹配问题，其中一方需从随机奖励中学习另一方的偏好，该模型扩展了标准的多臂赌博机框架，并研究了集中式和分散式方法，发现与单人多臂赌博机设置相比，具有令人惊讶的探索-利用权衡。

Jun, 2019

多人赌博机中的自私鲁棒性和均衡

研究了利用自我私利游戏玩家的多臂赌博机问题，提出了一种能够实现对恶意玩家具有鲁棒性的算法，并构建了两个不同设置下的鲁棒算法，其中一种包括隐式通信的算法，同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。

Feb, 2020

多智体多臂赌博机公平算法

本文在经典赌博机问题的基础上提出了一个多智能体变种，旨在学会对赌臂进行公平分配并利用纳什社会福利来衡量它的公平性，设计了三个多智能体变种的算法并证明其实现了次线性的损失纳什社会福利，因此可以对合理的互惠性展现出更大的感受。

Jul, 2020

去中心化匹配市场中的强盗学习

该研究针对两侧市场匹配问题，通过引入一种新算法，提高了在分散式多人选手竞争、无优先认知偏好和与偏好相关猜测等场景下博弈的结果鲁棒性。

Dec, 2020

有限共享资源臂的多人多臂赌博机：学习算法与应用

本研究提出 Multi-player multi-armed bandits with shareable resources 模型，针对共享资源的两种反馈信号提出 DPE-SDI 和 SIC-SDA 算法，证明它们的遗憾数在回合数上是紧的，并通过模拟验证算法的性能和在无线网络和边缘计算中的实用性。

Apr, 2022

共享有限容量臂的多次随机赌博机

研究了多臂赌博机问题中的可共享臂设置，提出了一个用于评估可共享臂容量的估计器以及一个在线学习算法，并验证了其在5G和4G基站选择中的有效性。

Jun, 2022

多智能体随机可共享臂容量的多臂赌博机

本研究针对分布式选择问题，提出了一种新的多玩家多臂赌博机模型，解决了臂请求的随机到达及其分配策略。关键的创新在于设计出一种贪婪算法和迭代分布式算法，使得玩家无需通信即可根据最优臂拉取特征选取臂。实验结果表明，该算法能有效促使玩家在有限轮次内达成共识，具有重要的应用潜力。

Aug, 2024