D3C: 多智能体学习中降低混沌代价

Oct, 2020

D3C: 多智能体学习中降低混沌代价

D3C: Reducing the Price of Anarchy in Multi-Agent Learning

Ian Gemp, Kevin R. McKee, Richard Everett, Edgar A. Duéñez-Guzmán, Yoram Bachrach...

TL;DRD3C 算法通过引入 Price of anarchy 的不可微上界，使得每个多智能体可以调整其激励机制，从而提高系统的效率。

Abstract

In multiagent systems, the complex interaction of fixed incentives can lead agents to outcomes that are poor (inefficient) not only for the group, but also for each individual. →

multiagent systems price of anarchy learning incentives efficiency

发现论文，激发创造

利他博弈的鲁棒性劣解代价

本文研究了各种类型的博弈中当玩家是（部分）利他主义者时的均衡的低效性，并通过模拟玩家的 “利他” 行为来推导出这些游戏的安定价格的（严格）下限。

Dec, 2011

拍卖收益的失调代价

该研究开发了工具，用于分析具有单维代理商的非对称拍卖中的 Bayes-Nash 平衡的福利和收益，分析分离了标准的平稳框架两个不同的部分，得到了关于社会福利和收益的无序价格结果，并为最优福利和最优收益提供了近似结果，同时还给出了同时组合多个拍卖的扩展定理。

Apr, 2014

大型博弈中的混乱代价

本文开发了一个框架，为计算机科学应用中涉及到的包含多个参与者的博弈论模型提供了红利保障，以减小其混沌的程度，实现了对多个经典模型的实例化，包括 “同时出价单项竞拍”、“贪婪组合式拍卖” 和 “路由博弈”，并鉴定了在什么情况下多方博弈的 POA 更好，同时也给出了简单竞拍可以在现实中表现出几乎和最优竞拍一样的效果的新的方面。

Mar, 2015

协调人群：在非合作系统中诱导理想均衡

本文提出了一种奖励设计方法，通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果，并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。

Jan, 2019

交通网络中的混沌成本：效率与最优控制

通过分析几个主要城市的道路网络的旅行时间，我们评估了无协调驾驶者的乱象代价。我们的模拟表明，不协调的驾驶者可能会浪费相当数量的旅行时间。令人意外的是，简单地封锁某些道路可以部分改善交通状况。我们分析了各种复杂网络，讨论了物理学中类似的悖论可能性。

Dec, 2007

拍卖中的混沌代价

本文提出了一种通用的、模块化的理论来证明竞拍中的平衡近似保证，该理论补充了传统经济技术，着重于精确和最优解决方案，并因此局限于相对简化的设置。我们提出了三个用户友好的分析工具：平滑型不等式、扩展定理和组合定理，将这些工具结合起来，为许多广泛使用的拍卖格式的均衡提供了严格的最坏情况近似保证。

Jul, 2016

自适应学习速率仍无法解决大规模多智能体学习中的混沌问题

在大规模拥挤博弈中，即使使用自适应学习率，也无法消除混沌行为，我们的实验表明系统参数的微小变化会导致各种不可预测的结果。

Jun, 2023

深度协同图

本文介绍了用于协作式多智能体强化学习的深度协调图（DCG）。DCG 通过协调图将所有智能体的联合价值函数因子化为智能体对之间的收益，从而在表征能力和泛化能力之间取得了灵活的折衷，解决了多智能体系统面临的相对过度泛化问题，在 StarCraft II 的微观管理任务中取得了显著的效果。

Sep, 2019

自私驾驶有多糟糕？限制城市驾驶游戏均衡的低效性

该研究通过将驾驶游戏建模为拥塞游戏来界定均衡效率，并通过模拟交通拥堵情况对社会成本和个人利益之间的相对权衡进行探究，得出了针对一些问题的 PoA 的改进边界。该研究还通过去中心化多智能体强化学习策略得出了高效均衡状态。

Oct, 2022

随机市场博弈

本文提出了利用市场力量鼓励多智能体系统中的协作行为，以应对智能驾驶或者工厂作为服务的具有相互冲突目标的混合动机场景。作者在包括囚徒困境博弈等迭代环节中证明了他们提出的市场推荐机制可以持续地学习协作策略，并证明在不同的智能体数量上，在时间和空间上的考验下，利用市场力量可以提高整体效果和智能体单个回报。

Jul, 2022