协作多智体异构多臂赌博机

ICMLMay, 2023

Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits

Ronshee Chawla, Daniel Vial, Sanjay Shakkottai, R. Srikant

TL;DR研究多人合作多智能体赌博问题，提出一种新的多人合作环境，并利用分散式演算法促进代理之间的合作，推导每个代理的累积遗憾度和群体的遗憾度上下限，并证明了该算法的近似最优行为。

Abstract

The study of collaborative multi-agent bandits has attracted significant attention recently. In light of this, we initiate the study of a new collaborative setting, consisting of $N$ agents such that each agent is learning one of $M$ →

collaborative multi-agent bandits stochastic multi-armed bandits decentralized algorithms group cumulative regret upper and lower bounds

发现论文，激发创造

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂 ID 来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至 $O (logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

社交网络上随机赌博机的协同学习

本文研究了协作在线学习的方法，特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况，并对其使用的不同算法进行了遗憾分析。我们发现，单个代理学习策略的自然扩展在网络设置下表现不佳，我们提出了一类策略，并证明其在网络环境中容易遭受大量遗憾。同时，我们也提出了基于网络结构的学习算法，并在拥有不同拓扑结构的网络上进行了实验。

Feb, 2016

博弈中协作学习的最优遗憾界

我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题，在该模型中，每个智能体面临一个有限的臂集，并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂，其中每个臂的混合奖励是其在所有智能体之间的奖励的加权平均，这使得智能体之间的通信至关重要。尽管在这个协作模型下已知最优臂识别的近似复杂度，但最优遗憾问题仍然是开放的。在这项工作中，我们解决了这个问题，并提出了第一个在这个协作老虎机模型下具有最优遗憾界限的算法。此外，我们还展示了只需要一个小的常数期望通信轮数。

Dec, 2023

聚类多智能体线性赌博

研究了多智能体线性随机赌博问题的特定情况，称为聚类的多智能体线性赌博。提出了一种新颖的算法，在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估，理论分析了后悔最小化问题和聚类质量，证明了我们方法的有效性：我们的算法显著改善了后悔最小化，并成功恢复了真实的聚类划分。

Sep, 2023

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

多智体多臂赌博机公平算法

本文在经典赌博机问题的基础上提出了一个多智能体变种，旨在学会对赌臂进行公平分配并利用纳什社会福利来衡量它的公平性，设计了三个多智能体变种的算法并证明其实现了次线性的损失纳什社会福利，因此可以对合理的互惠性展现出更大的感受。

Jul, 2020

公平最优多智能体赌博机

研究多智能体多臂赌博学习问题，以无通信和有限奖励为前提，提出了一种分布式拍卖算法并进行样本最优匹配学习和新的拍卖决策策略，通过新颖的基于次序统计量的后悔分析带来了全新的性能，实验模拟表明性能依赖于对数时间。

Jun, 2023

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023

合作非随机多臂老虎机中的个体遗憾

研究通过交换信息在底层网络上通信的代理，以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法，其中保证每个代理 v 的期望遗憾都是（1+K/|N (v)|)^T 的平方根量级。

Jul, 2019