将 Cournot 博弈建模为多智能体多臂赌博机

Jan, 2022

将 Cournot 博弈建模为多智能体多臂赌博机

Modelling Cournot Games as Multi-agent Multi-armed Bandits

Kshitija Taywade, Brent Harrison, Adib Bagh

TL;DR本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Abstract

We investigate the use of a multi-agent multi-armed bandit (MA-MAB) setting for modeling repeated cournot oligopoly games, where the firms acting as agents choose from the set of arms representing production quan

multi-agent multi-armed bandit cournot oligopoly games epsilon-greedy approach exploration optimization equilibrium analysis

发现论文，激发创造

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

成本补贴的多臂老虎机

本研究考虑了一种新颖的多臂赌博机问题（MAB with cost subsidy），为了优化累积的成本和收益，学习机构必须支付选择的手臂成本，针对这种问题，我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟，最后建立了任何线上学习算法的性能下界，为实际应用不同算法提供了实用性建议。

Nov, 2020

多人多臂赌博机中，争夺可共享臂

在多人多臂老虎机（MPMAB）竞争模型中，我们提出了基于纳什均衡的自私 MPMAB 和平均分配（SMAA）策略，有效解决了自私玩家学习和最大化奖励的问题，并在理论和实验中证明其有效性和稳健性。

May, 2023

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

腐败赌徒

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017

非固定奖励分布和延迟反馈过程的多臂赌博策略

本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能，并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术（AG1），在在线电子商务平台上进行了多臂赌博模拟。结果表明，相对于传统的多臂赌博策略，在后悔最小化的情况下，自适应技术表现更优秀。

Feb, 2019

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015