使用强化学习验证实证博弈理论分析：一项连续双边拍卖研究

Apr, 2016

使用强化学习验证实证博弈理论分析：一项连续双边拍卖研究

Using Reinforcement Learning to Validate Empirical Game-Theoretic Analysis: A Continuous Double Auction Study

Mason Wright

TL;DR本文提出使用强化学习分析 EGTA 发现的 Nash 平衡策略的遗憾，并开发了强化学习工具库用于证明 EGTA 在连续双重拍卖市场研究中发现的均衡具有可接受的遗憾程度。

Abstract

empirical game-theoretic analysis (EGTA) has recently been applied successfully to analyze the behavior of large numbers of competing traders in a continuous double auction market. →

empirical game-theoretic analysis continuous double auction market multiagent simulation methods reinforcement learning nash equilibrium

发现论文，激发创造

一种广义经验博弈理论分析方法

本文提供了复杂多代理交互的经验博弈理论上界，研究了元博弈理论、博弈均衡、数据样本量、非对称游戏与多代理学习算法，并在 AlphaGo、Colonel Blotto 和 Leduc Poker 等不同情境下进行实证探究其进化动态。

Mar, 2018

重复拍卖中无悔竞标算法的收敛分析

本文研究拍卖中的无悔出价算法的收敛性，发现如果投标人使用任何基于均值的学习规则，则投标人定价会在第二价格拍卖中高概率收敛到单纯纳什均衡，在多个物品拍卖的 VCG 拍卖中以及在第一价格拍卖中收敛到贝叶斯纳什均衡，实验证实了这些理论发现。

Sep, 2020

学习代理的计量经济学

本文开发了一种理论，可以在广义第二价格拍卖中从观察到的数据中推断出玩家估值，而不需要依赖于纳什均衡的假设，并展示了如何在一些 no-regret learning 算法的假设下推断玩家的价值，这对于在拍卖数据上测试任何学习理论行为模型前的重要步骤。

May, 2015

多智能体信任域优化的博弈论方法

通过在策略空间中进行博弈论分析，MATRL 提出了一种用于多智能体学习的多智能体信赖域学习方法，该方法可在解决纳什均衡的元游戏级别上找到稳定的改进方向，并在离散和连续的多人游戏中明显优于基线。

Jun, 2021

高社会福利纳什均衡的规范导向学习

本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架，该框架利用高级规定来编码目标，并优先考虑多智能体系统的社会福利，经验评估表明，相对于现有方法，本算法计算的纳什均衡策略具有更高的社会福利。

Jun, 2022

从行为理论到计量经济学：通过重复交互数据推断人类参与者的偏好

本文考虑了如何从人类交互数据中准确估计人类主体的偏好，并与行为经济学中的均衡概念相比较，其中四种基于行为均衡模型的估计方法被开发用于推断人类代理的效用，并使用 2x2 游戏的实验数据进行评估。结果表明，这些行为均衡方法产生的估计结果比纳什均衡法更准确，并且与量纲后悔法相比较，这些行为方法具有更好的命中率，但相对于整体均方误差来说，量纲后悔法表现更好，我们探讨了这些方法之间的差异。

Dec, 2021

基于端到端强化学习的通用谈判策略

我们利用图形表示观察和行为，并在策略中应用图神经网络，开发了一种用于多样化谈判问题的端到端强化学习方法，通过实证评估，我们表明我们的方法是有效的，我们可以学会与以前未见过的谈判问题中的其他代理进行谈判，这一结果为强化学习在谈判代理中开辟了新的机会。

Jun, 2024

将 Cournot 博弈建模为多智能体多臂赌博机

本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Jan, 2022

多智能体系统风险管理的博弈论框架

本文介绍了一种基于风险规避博弈 (RAE) 的解决方案，该方案旨在尽量减少其他代理策略引起的奖励潜在方差，在多智能体强化学习框架下通过实验证明了其最小化奖励变差的效果以及在自动驾驶中减少事故率的表现。

May, 2022

关于回合制零和马尔可夫博弈的强化学习

本文提出了一种基于强化学习的方法，结合 “探索，策略改进和监督学习”，以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。

Feb, 2020