使用强化学习验证实证博弈理论分析:一项连续双边拍卖研究
本文提供了复杂多代理交互的经验博弈理论上界,研究了元博弈理论、博弈均衡、数据样本量、非对称游戏与多代理学习算法,并在 AlphaGo、Colonel Blotto 和 Leduc Poker 等不同情境下进行实证探究其进化动态。
Mar, 2018
本文研究拍卖中的无悔出价算法的收敛性,发现如果投标人使用任何基于均值的学习规则,则投标人定价会在第二价格拍卖中高概率收敛到单纯纳什均衡,在多个物品拍卖的 VCG 拍卖中以及在第一价格拍卖中收敛到贝叶斯纳什均衡,实验证实了这些理论发现。
Sep, 2020
本文开发了一种理论,可以在广义第二价格拍卖中从观察到的数据中推断出玩家估值,而不需要依赖于纳什均衡的假设,并展示了如何在一些 no-regret learning 算法的假设下推断玩家的价值,这对于在拍卖数据上测试任何学习理论行为模型前的重要步骤。
May, 2015
通过在策略空间中进行博弈论分析,MATRL 提出了一种用于多智能体学习的多智能体信赖域学习方法,该方法可在解决纳什均衡的元游戏级别上找到稳定的改进方向,并在离散和连续的多人游戏中明显优于基线。
Jun, 2021
本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架,该框架利用高级规定来编码目标,并优先考虑多智能体系统的社会福利,经验评估表明,相对于现有方法,本算法计算的纳什均衡策略具有更高的社会福利。
Jun, 2022
本文考虑了如何从人类交互数据中准确估计人类主体的偏好,并与行为经济学中的均衡概念相比较,其中四种基于行为均衡模型的估计方法被开发用于推断人类代理的效用,并使用 2x2 游戏的实验数据进行评估。结果表明,这些行为均衡方法产生的估计结果比纳什均衡法更准确,并且与量纲后悔法相比较,这些行为方法具有更好的命中率,但相对于整体均方误差来说,量纲后悔法表现更好,我们探讨了这些方法之间的差异。
Dec, 2021
我们利用图形表示观察和行为,并在策略中应用图神经网络,开发了一种用于多样化谈判问题的端到端强化学习方法,通过实证评估,我们表明我们的方法是有效的,我们可以学会与以前未见过的谈判问题中的其他代理进行谈判,这一结果为强化学习在谈判代理中开辟了新的机会。
Jun, 2024
本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法,并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时,本文提出了两种利用有序行动空间的新方法,即 E - 贪心 + HL 和 E - 贪心 + EL,以优化探索,并使用计算机模拟研究了各种均衡的出现,并进行了联合累积损失的实证分析。
Jan, 2022
本文介绍了一种基于风险规避博弈 (RAE) 的解决方案,该方案旨在尽量减少其他代理策略引起的奖励潜在方差,在多智能体强化学习框架下通过实验证明了其最小化奖励变差的效果以及在自动驾驶中减少事故率的表现。
May, 2022
本文提出了一种基于强化学习的方法,结合 “探索,策略改进和监督学习”,以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。
Feb, 2020