高社会福利纳什均衡的规范导向学习

Jun, 2022

高社会福利纳什均衡的规范导向学习

Specification-Guided Learning of Nash Equilibria with High Social Welfare

Kishor Jothimurugan, Suguman Bansal, Osbert Bastani, Rajeev Alur

TL;DR本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架，该框架利用高级规定来编码目标，并优先考虑多智能体系统的社会福利，经验评估表明，相对于现有方法，本算法计算的纳什均衡策略具有更高的社会福利。

Abstract

reinforcement learning has been shown to be an effective strategy for automatically training policies for challenging control problems. Focusing on non-cooperative multi-agent systems, we propose a novel

reinforcement learning multi-agent systems nash equilibrium high-level specifications empirical evaluation

发现论文，激发创造

多目标强化学习中的福利与公正

本研究探讨了如何在多个目标之间实现公平的多目标强化学习，其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法，通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法，以学习为非线性福利函数进行优化。我们的算法可以被证明收敛，并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比，在 Nash 社会福利目标方面，我们的方法表现出更好的效果。

Nov, 2022

关于回合制零和马尔可夫博弈的强化学习

本文提出了一种基于强化学习的方法，结合 “探索，策略改进和监督学习”，以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。

Feb, 2020

协调人群：在非合作系统中诱导理想均衡

本文提出了一种奖励设计方法，通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果，并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。

Jan, 2019

多智能体竞争性次优演示逆强化学习

本文介绍一种新的逆强化学习算法，通过深度神经网络模型近似和零和随机博弈的对抗式训练来寻找纳什均衡和奖励函数，解决了以往基于表格表示无法解决的问题。

Jan, 2018

去中心化强化学习：通过本地经济交易进行全局决策制定

该研究旨在建立一个框架，以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题，并通过设计一种学习环境机制，使每个代理人的最优解与 Nash 平衡策略一致，并为其推导出了一类分散式强化学习算法，同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。

Jul, 2020

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

非线性福利感知战略学习

本文研究在存在战略个体行为的情况下的算法决策，其中使用机器学习模型作出对人类个体的决策，而后者可以战略性地调整自己的行为以改进其未来的数据。研究重点在于非线性设置，其中个体只能通过决策策略的本地信息来响应决策策略。同时考虑最大化决策者福利（模型预测准确性）、社会福利（战略行为导致的个体改进）和个体福利（机器学习对个体的低估程度）的目标。理论结果表明，仅仅最大化某些参与方的福利必然会减少其他方的福利，因此我们认为在非线性设置中平衡各方福利是必要的，并提出了一种适用于一般战略学习的不可缩减优化算法。通过对合成数据和真实数据的实验证实了所提算法。

May, 2024

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024