基于图的赌博机学习

Sep, 2022

Multi-armed Bandit Learning on a Graph

Tianpeng Zhang, Kasper Johansson, Na Li

TL;DR本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Abstract

The multi-armed bandit(MAB) problem is a simple yet powerful framework that has been extensively studied in the context of decision-making under uncertainty. In many real-world applications, such as robotic applications, selecting an arm corresponds to a physical action that constrains

multi-armed bandit graph bandit learning algorithm exploration-exploitation principle regret bound

发现论文，激发创造

合作多智体图形赌博机：UCB 算法和遗憾分析

在这篇论文中，我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57，1-6（2023）] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界（UCB）的学习算法 Multi-G-UCB，并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定，其中 D 是图 G 的直径。最后，我们通过与其他方法的比较对算法进行了数值测试。

Jan, 2024

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

针对分段平稳赌博机的变化检测近乎最优自适应程序

通过结合经典的 UCB 算法和简单的变化检测组件，我们提出了一种称为 M-UCB 的算法，可以在未知时间步骤中检测和适应变化，并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验，我们还展示了该算法的卓越性能。

Feb, 2018

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015

将 Cournot 博弈建模为多智能体多臂赌博机

本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Jan, 2022

不确定性下的奖励最大化：利用网络的相关观察

设计考虑了存在网络结构情况下对多臂赌博问题的解决方案，提出两个基于网络结构的策略，并在真实社交网络和路由网络的数据上测试，证明相比于现有策略获得了更多的好处。

Apr, 2017

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

多智能体多臂赌博决策分布式一致性算法

研究多智能体多臂赌博问题中的决策制定策略，利用贝叶斯变点检测和重启决策协作优化多智能体 UCB 算法的期望组后悔率的理论上限，并在合成数据集和真实数据集上进行数值实验，表明所提出的方法优于现有的算法。

Jun, 2023

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法，该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

具有不对称置信区间的预算多臂赌博机

本文研究了随机预算多臂赌博问题，并提出了一种名为 ω-UCB 的新的上置信界（UCB）采样策略，该策略使用了不对称置信区间，并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。

Jun, 2023