协调人群：在非合作系统中诱导理想均衡

Jan, 2019

协调人群：在非合作系统中诱导理想均衡

Coordinating the Crowd: Inducing Desirable Equilibria in Non-Cooperative Systems

David Mguni, Joel Jennings, Sergio Valcarcel Macua, Emilio Sison, Sofia Ceppi...

TL;DR本文提出了一种奖励设计方法，通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果，并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。

Abstract

Many real-world systems such as taxi systems, traffic networks and smart grids involve self-interested actors that perform individual tasks in a shared environment. However, in such systems, the self-interested behaviour of agents produces welfare inefficient and globally suboptimal outcomes that are detrimental to all - some common examples are congestion i

incentive-design method multi-agent systems reinforcement learning optimal system performance markov games

发现论文，激发创造

通过奖励最弱成员激励合作

提出了一种奖励机制，通过最弱小成员的表现去奖励整个团队，实现了自动化的公平性，并最大化了效能。此奖励机制涉及到团体选择和包容适应理论。

Oct, 2022

随机市场博弈

本文提出了利用市场力量鼓励多智能体系统中的协作行为，以应对智能驾驶或者工厂作为服务的具有相互冲突目标的混合动机场景。作者在包括囚徒困境博弈等迭代环节中证明了他们提出的市场推荐机制可以持续地学习协作策略，并证明在不同的智能体数量上，在时间和空间上的考验下，利用市场力量可以提高整体效果和智能体单个回报。

Jul, 2022

通过网络结构修改诱导网络公共物品博弈的均衡

该研究开展了网络公共品博弈的算法研究，以诱导特定形式的均衡状态，研究了投资、网络结构和均衡状态对博弈结果的影响，并对多种均衡形式和效用函数进行了研究。

Feb, 2020

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021

高社会福利纳什均衡的规范导向学习

本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架，该框架利用高级规定来编码目标，并优先考虑多智能体系统的社会福利，经验评估表明，相对于现有方法，本算法计算的纳什均衡策略具有更高的社会福利。

Jun, 2022

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

提高群体诚实度的机制

本论文考虑如何设计一种激励机制，以在固有的逆向选择环境下，利用纯粹的协作或对抗以及报告代价获得真实从众意见汇报。

Jan, 2014

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

去中心化强化学习：通过本地经济交易进行全局决策制定

该研究旨在建立一个框架，以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题，并通过设计一种学习环境机制，使每个代理人的最优解与 Nash 平衡策略一致，并为其推导出了一类分散式强化学习算法，同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。

Jul, 2020

不确定激励一致下的紧急合作

不确定性降低了代理人在合作行为中的能力，但通过声誉机制和内在奖励可以增强合作环境中的代理人能力并大幅提升混合动机环境中的合作。

Jan, 2024