社交网络上随机赌博机的协同学习

Feb, 2016

社交网络上随机赌博机的协同学习

Collaborative Learning of Stochastic Bandits over a Social Network

Ravi Kumar Kolla, Krishna Jagannathan, Aditya Gopalan

TL;DR本文研究了协作在线学习的方法，特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况，并对其使用的不同算法进行了遗憾分析。我们发现，单个代理学习策略的自然扩展在网络设置下表现不佳，我们提出了一类策略，并证明其在网络环境中容易遭受大量遗憾。同时，我们也提出了基于网络结构的学习算法，并在拥有不同拓扑结构的网络上进行了实验。

Abstract

We consider a collaborative online learning paradigm, wherein a group of agents connected through a social network are engaged in playing a stochastic multi-armed bandit game. Each time an agent takes an action,

collaborative online learning stochastic multi-armed bandit game social network regret analysis learning algorithm

发现论文，激发创造

协作多智体异构多臂赌博机

研究多人合作多智能体赌博问题，提出一种新的多人合作环境，并利用分散式演算法促进代理之间的合作，推导每个代理的累积遗憾度和群体的遗憾度上下限，并证明了该算法的近似最优行为。

May, 2023

邻居学习：网络中的随机和对抗性赌博机

本文介绍了一种新颖的决策模型，以多臂老虎机框架为基础分析社交网络中的学习和决策过程。通过观察邻居的行动和得到的回报，个体可以最小化自己的后悔，我们提供了这种情况下的算法，无论是确定性还是对抗性的多臂老虎机模型，这些算法都是最优的（除去对数因子），并且可以用于社交网络中的自私智能体的近似纳什均衡。

Apr, 2017

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

聚类多智能体线性赌博

研究了多智能体线性随机赌博问题的特定情况，称为聚类的多智能体线性赌博。提出了一种新颖的算法，在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估，理论分析了后悔最小化问题和聚类质量，证明了我们方法的有效性：我们的算法显著改善了后悔最小化，并成功恢复了真实的聚类划分。

Sep, 2023

合作非随机多臂老虎机中的个体遗憾

研究通过交换信息在底层网络上通信的代理，以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法，其中保证每个代理 v 的期望遗憾都是（1+K/|N (v)|)^T 的平方根量级。

Jul, 2019

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂 ID 来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至 $O (logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

博弈中协作学习的最优遗憾界

我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题，在该模型中，每个智能体面临一个有限的臂集，并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂，其中每个臂的混合奖励是其在所有智能体之间的奖励的加权平均，这使得智能体之间的通信至关重要。尽管在这个协作模型下已知最优臂识别的近似复杂度，但最优遗憾问题仍然是开放的。在这项工作中，我们解决了这个问题，并提出了第一个在这个协作老虎机模型下具有最优遗憾界限的算法。此外，我们还展示了只需要一个小的常数期望通信轮数。

Dec, 2023

合作多智能体赌博机：优化个体懊悔并具有恒定通讯开销的分布式算法

合作多智能体多臂赌博算法中的通信策略，既实现了最优个体遗憾，又具有恒定的通信成本。

Aug, 2023

并发赌博机与认知无线电网络

提出一种结合 epsilon-greedy 学习规则和避碰机制的算法，用于解决多用户共享多臂赌博问题，应用于认知无线电网络中，实验证明相比其他算法，该算法在此环境中可以显著提高性能，并取得次线性遗憾。

Apr, 2014

在线集群化的赌博机

介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法，提供标准随机噪声环境下的尖锐遗憾分析，证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示，在赌徒问题上，预测性能显著优于现有技术方法。

Jan, 2014