透过赠予行为促进多智体游戏中的道德行为

IJCAIMay, 2021

透过赠予行为促进多智体游戏中的道德行为

Emergent Prosociality in Multi-Agent Games Through Gifting

Woodrow Z. Wang, Mark Beliaev, Erdem Bıyık, Daniel A. Lazar, Ramtin Pedarsani...

TL;DR本研究提出了一种使用对等激励机制指导智能体协调、从而实现更符合社会期望的 Nash 均衡的方法，实验发现，使用此方法可以增加博弈模型收敛到期望均衡的概率。

Abstract

coordination is often critical to forming prosocial behaviors -- behaviors that increase the overall sum of rewards received by all agents in a multi-agent game. However, state of the art reinforcement learning a

coordination reinforcement learning prosocial behavior peer-rewarding mechanism convergence

发现论文，激发创造

互惠奖励影响促进自利代理人合作

自利个体之间的紧急合作在自然界是普遍现象，但在人工智能代理之间的互动中仍然难以实现。我们引入了回报者（Reciprocators），一种本质上受到对手行为影响回报的强化学习代理，用于促进各种时间上延长的社会困境中的合作。

Jun, 2024

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

强化学习下的合作和声誉动态

通过一种强化学习的简单模型，研究发现使用声誉机制可以解决一些协作难题，但是声誉机制本身也会生成两个协调问题，为了缓解这个问题，可以采用固定代理人和内在奖励相结合等简单机制。

Feb, 2021

协调人群：在非合作系统中诱导理想均衡

本文提出了一种奖励设计方法，通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果，并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。

Jan, 2019

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

利他型学习代理比利己型代理更擅长解决广义野鹿狩猎问题

通过在 Stag Hunt 游戏环境下应用 reward-shaping 技术，让一个单独的多智能体学习者变得 pro-social 可以提高群体学习的性能和每个智能体的长期回报。

Sep, 2017

通过奖励最弱成员激励合作

提出了一种奖励机制，通过最弱小成员的表现去奖励整个团队，实现了自动化的公平性，并最大化了效能。此奖励机制涉及到团体选择和包容适应理论。

Oct, 2022

不确定激励一致下的紧急合作

不确定性降低了代理人在合作行为中的能力，但通过声誉机制和内在奖励可以增强合作环境中的代理人能力并大幅提升混合动机环境中的合作。

Jan, 2024

通过交易奖励份额学习参与

通过股票市场启发式方法，让自主智能体通过获得奖励份额参与其他智能体的回报，从而促进解决社交困境中自主智能体之间的合作。经过测试得出，这种机制在独立训练的自主智能体之间促进了合作，在时间和空间延伸的领域中，有助于角色的发展和子任务的划分。

Jan, 2023

网络公共物品博弈中的利他设计

本论文介绍了一个扩展的公共物品博弈模型来考虑利他动机，其中将利他主义通过利他主义图中介的受益纳入效用函数，探索了调节共同利益的杠杆作用和计算复杂性。

May, 2021