基于图的赌博机学习
在这篇论文中,我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57,1-6(2023)] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界(UCB)的学习算法 Multi-G-UCB,并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定,其中 D 是图 G 的直径。最后,我们通过与其他方法的比较对算法进行了数值测试。
Jan, 2024
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023
通过结合经典的 UCB 算法和简单的变化检测组件,我们提出了一种称为 M-UCB 的算法,可以在未知时间步骤中检测和适应变化,并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验,我们还展示了该算法的卓越性能。
Feb, 2018
我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题,我们设计了合作 UCB 算法,该算法包括两个交错的分布式过程:(i)运行共识算法来估计回报,以及(ii)基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析,并描述了通信图结构对群体决策性能的影响。
Dec, 2015
本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法,并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时,本文提出了两种利用有序行动空间的新方法,即 E - 贪心 + HL 和 E - 贪心 + EL,以优化探索,并使用计算机模拟研究了各种均衡的出现,并进行了联合累积损失的实证分析。
Jan, 2022
设计考虑了存在网络结构情况下对多臂赌博问题的解决方案,提出两个基于网络结构的策略,并在真实社交网络和路由网络的数据上测试,证明相比于现有策略获得了更多的好处。
Apr, 2017
研究多智能体多臂赌博问题中的决策制定策略,利用贝叶斯变点检测和重启决策协作优化多智能体 UCB 算法的期望组后悔率的理论上限,并在合成数据集和真实数据集上进行数值实验,表明所提出的方法优于现有的算法。
Jun, 2023
本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题,并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法,该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。
Nov, 2021
本文研究了随机预算多臂赌博问题,并提出了一种名为 ω-UCB 的新的上置信界(UCB)采样策略,该策略使用了不对称置信区间,并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。
Jun, 2023