邻居学习：网络中的随机和对抗性赌博机

MMApr, 2017

邻居学习：网络中的随机和对抗性赌博机

Lean From Thy Neighbor: Stochastic & Adversarial Bandits in a Network

L. Elisa Celis, Farnood Salehi

TL;DR本文介绍了一种新颖的决策模型，以多臂老虎机框架为基础分析社交网络中的学习和决策过程。通过观察邻居的行动和得到的回报，个体可以最小化自己的后悔，我们提供了这种情况下的算法，无论是确定性还是对抗性的多臂老虎机模型，这些算法都是最优的（除去对数因子），并且可以用于社交网络中的自私智能体的近似纳什均衡。

Abstract

An individual's decisions are often guided by those of his or her peers, i.e., neighbors in a social network. Presumably, being privy to the experiences of others aids in learning and decision making, but how much advantage does an individual gain by observing her neighbors? Such problems make appearances in sociology and economics and, in this paper, we pre

multi-armed bandits social learning regret minimization stochastic bandits adversarial bandits

发现论文，激发创造

社交网络上随机赌博机的协同学习

本文研究了协作在线学习的方法，特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况，并对其使用的不同算法进行了遗憾分析。我们发现，单个代理学习策略的自然扩展在网络设置下表现不佳，我们提出了一类策略，并证明其在网络环境中容易遭受大量遗憾。同时，我们也提出了基于网络结构的学习算法，并在拥有不同拓扑结构的网络上进行了实验。

Feb, 2016

多臂赌博机问题中多智能体异质随机交互

研究和分析了一个多智能体多臂赌博问题，其中智能体可观察到邻居的选择和奖励，这些邻居由具有异构和随机互连的网络图定义，这些互动由每个智能体的社交性决定，我们针对每个智能体设计算法来最大化其自己的预期累积奖励，并证明依赖于智能体和网络结构的社交性能边界。使用这些边界来预测智能体的性能排名，并进行了理论和计算上的验证。

May, 2019

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

合作非随机多臂老虎机中的个体遗憾

研究通过交换信息在底层网络上通信的代理，以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法，其中保证每个代理 v 的期望遗憾都是（1+K/|N (v)|)^T 的平方根量级。

Jul, 2019

利用随机赌博机的侧观察优化

本文提出一种考虑了副观测数据的随机赌博机模型，并基于上界置信度 (UCBs) 提供了高效的算法，用于在社交网络中推荐内容，实现了比传统算法更好的效果。

Oct, 2012

具有网络干扰的多臂赌博机

通过研究在线干预实验中的干扰问题，我们提出了基于线性回归算法的多臂赌博机策略，以最小化后悔并实现低后悔的任务分配。

May, 2024

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011

不观测冲突信息的多人赌博机

该研究探讨了多人随机多臂赌博问题，其中玩家不能相互通信，且如果两个或两个以上的玩家拉动同一臂，就会发生碰撞并且涉及到的玩家将不会收到奖励，在此研究中，作者提出了两个反馈模型，即一种可以观察到碰撞是否发生和一种更难的模型，即没有碰撞信息。作者提出了一个算法可以实现对于后者的对数后悔度，以及一个不依赖于平均数之间差距的平方根后悔度型算法。对于前一模型，作者给出了第一个不依赖于差距的深度后悔度。基于这些想法，作者还提出了一种在随机反～协调博弈中快速达成近似纳什均衡的算法。

Aug, 2018

流言模型中的分散式学习动态

研究在流言传播模型中的分布式多臂赌博设置在 n 个。内存受限节点的人口中：在每个回合中，每个节点本地采取 m 个手臂之一，观察从手臂中获得的回报（敌意选择）分布，然后与随机抽样的邻居进行通信，交换信息以确定其在下一轮中的策略。我们引入和分析了这个任务的几族动力学，这些动力学是分散的；每个节点的决策完全是本地的，并且仅取决于最近获得的奖励及其抽样邻居的奖励。我们展示了这些分散动态的全局演化与某种 “零和” 乘性权重更新算法之间的联系，并且我们开发了一个通用框架来分析这些自然协议的种群水平遗憾。利用这个框架，在广泛的参数范围下 (即人口规模和臂数)，我们推导出静态奖励设置 (每个臂的分布均值随时间固定) 和敌意奖励设置 (均值随时间可变) 的次线性遗憾界。此外，我们还表明，当奖励分布是由随机梯度量规产生时，这些协议可以近似地优化面对单纯形的凸函数。

Jun, 2023

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014