更好社会结果的补贴设计

Sep, 2024

Subsidy design for better social outcomes

Maria-Florina Balcan, Matteo Pozzi, Dravyansh Sharma

TL;DR本研究针对多代理系统中理性玩家的自私行为导致的低效问题进行了探讨，特别是理性代理避开免费的游戏信息所造成的更糟糕的社会结果。研究表明，通过数据驱动的方法设计补贴可以有效缓解这些问题，并能在重复游戏中学习出良好的补贴值，促进系统绩效的提升。

Abstract

Overcoming the impact of selfish behavior of rational players in Multiagent Systems is a fundamental problem in Game Theory. Without any intervention from a central agent, strategic users take actions in order to

发现论文，激发创造

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的Deep Q-Networks所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

网络公共物品博弈中的利他设计

本论文介绍了一个扩展的公共物品博弈模型来考虑利他动机，其中将利他主义通过利他主义图中介的受益纳入效用函数，探索了调节共同利益的杠杆作用和计算复杂性。

May, 2021

把它写下来：正式合同缓解多智能体强化学习中的社会困境

本文提出一种基于经济学中形式合同思想的多智能体强化学习方法，实现在自私代理中解决个人与群体奖励分歧问题，并通过经验实验得出，该增强方法可使马尔可夫游戏中所有平稳状态达到社会最优行为策略。

Aug, 2022

介导的多智能体强化学习

研究了如何通过引入内部和外部协调措施，实现智能体之间在环境中的合作，其中提出了中介者模型作为实现协调的一种方法。

Jun, 2023

基于数据驱动的无货币策略代理的近理想公平资源分配

通过学习，设计公平分配机制，以比例公平性为基准，解决了一次性分配机制的学习问题，同时提出了可行的方法来度量机制的可利用性，并通过数据控制公平性和可利用性之间的权衡，提出了两种近似比例公平机制，分别是ExPF-Net和ExS-Net，通过大量的数值模拟验证了这些机制的有效性和鲁棒性。

Nov, 2023

为了取得更好成绩而付费：学习智能体之间的游戏支付

在重复博弈中，我们研究了采用货币调节等教授动态学习策略的玩家对于行为激励的影响，包括其对学习动态、福利和分配的影响，并提出了一个简单的博弈论模型以解释这些情况。我们的研究表明，在一类广泛的博弈中，通过让学习代理在游戏动态过程中向其他玩家支付，玩家的福利得到提高，而在拍卖过程中，通过制定“支付政策博弈”的均衡，代理动态可以达到低收益的合谋结果，这为与机制设计相关的自动学习代理的系统提出了挑战。

May, 2024

通过预测其他学习者的行为在多智能体环境中最大化效用

在本论文中，我们研究了多次重复的两人博弈情境中，涉及学习算法和优化算法的两种类型代理者的决策互动，提供了针对Replicator Dynamics和Multiplicative Weights Update（MWU）的优化算法，以及涉及MWU的离散时间设置的平均效用保证，但未解决P=NP时的多项式时间近似以及优化到$o(T)$效用的算法问题。

Jul, 2024

游戏与机制设计中的执行性预测

本研究解决了执行性预测在多主体场景中可能导致的社会福利损失问题。通过分析一个集体风险困境场景，提出了在追求准确性和社会福利之间的权衡方法，并利用贝叶斯代理行为模型为机制设计提供了新的思路。研究结果显示，改善这些权衡可以显著提升社会福利。

Aug, 2024