更好社会结果的补贴设计
本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费,重点关注探索、开发和利益激励之间的平衡,并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明,经过实验模拟,设计的建议政策可以达到恒定的遗憾值,即使在面对随机收益时也可以达到对数遗憾。
Feb, 2016
本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的Deep Q-Networks所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。
Feb, 2017
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
本文提出一种基于经济学中形式合同思想的多智能体强化学习方法,实现在自私代理中解决个人与群体奖励分歧问题,并通过经验实验得出,该增强方法可使马尔可夫游戏中所有平稳状态达到社会最优行为策略。
Aug, 2022
通过学习,设计公平分配机制,以比例公平性为基准,解决了一次性分配机制的学习问题,同时提出了可行的方法来度量机制的可利用性,并通过数据控制公平性和可利用性之间的权衡,提出了两种近似比例公平机制,分别是ExPF-Net和ExS-Net,通过大量的数值模拟验证了这些机制的有效性和鲁棒性。
Nov, 2023
在重复博弈中,我们研究了采用货币调节等教授动态学习策略的玩家对于行为激励的影响,包括其对学习动态、福利和分配的影响,并提出了一个简单的博弈论模型以解释这些情况。我们的研究表明,在一类广泛的博弈中,通过让学习代理在游戏动态过程中向其他玩家支付,玩家的福利得到提高,而在拍卖过程中,通过制定“支付政策博弈”的均衡,代理动态可以达到低收益的合谋结果,这为与机制设计相关的自动学习代理的系统提出了挑战。
May, 2024
在本论文中,我们研究了多次重复的两人博弈情境中,涉及学习算法和优化算法的两种类型代理者的决策互动,提供了针对Replicator Dynamics和Multiplicative Weights Update(MWU)的优化算法,以及涉及MWU的离散时间设置的平均效用保证,但未解决P=NP时的多项式时间近似以及优化到$o(T)$效用的算法问题。
Jul, 2024
本研究解决了执行性预测在多主体场景中可能导致的社会福利损失问题。通过分析一个集体风险困境场景,提出了在追求准确性和社会福利之间的权衡方法,并利用贝叶斯代理行为模型为机制设计提供了新的思路。研究结果显示,改善这些权衡可以显著提升社会福利。
Aug, 2024