通过奖励最弱成员激励合作

Oct, 2022

Incentivising cooperation by rewarding the weakest member

Jory Schossau, Bamshad Shirmohammadi, Arend Hintze

TL;DR提出了一种奖励机制，通过最弱小成员的表现去奖励整个团队，实现了自动化的公平性，并最大化了效能。此奖励机制涉及到团体选择和包容适应理论。

Abstract

autonomous agents that act with each other on behalf of humans are becoming more common in many social domains, such as customer service, transportation, and health care. In such social situations greedy strategies can reduce the positive outcome for all agents, such as leading to stop

发现论文，激发创造

具有不完全信息的社会困境中的后果主义条件合作

构建一个条件纯合作的智能体来解决社会困境问题，使用强化学习技术，仅仅基于结果而非意图，可以构建出好的策略，在真实社会困境中有效，并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。

Oct, 2017

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准RL和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

强化学习下的合作和声誉动态

通过一种强化学习的简单模型，研究发现使用声誉机制可以解决一些协作难题，但是声誉机制本身也会生成两个协调问题，为了缓解这个问题，可以采用固定代理人和内在奖励相结合等简单机制。

Feb, 2021

透过赠予行为促进多智体游戏中的道德行为

本研究提出了一种使用对等激励机制指导智能体协调、从而实现更符合社会期望的 Nash 均衡的方法，实验发现，使用此方法可以增加博弈模型收敛到期望均衡的概率。

May, 2021

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

合作与竞争：进化多智能体强化学习中的群集行为

本文提出了 Evolutionary Multi-Agent Reinforcement Learning (EMARL) 作为集群任务中的一种混合算法，将合作与竞争相结合并通过 boids 模型对聚群任务的智能体的奖励进行设计。同时，对于竞争，高适应性的智能体被设计为高级别智能体，低适应性的智能体被设计为初级智能体，让初级智能体随机继承高级智能体的参数。

Sep, 2022

学习团队对齐：基于多智体团队的自适应 Credo 框架

在多智能体团队中使用混合激励机制具有优势，作者们提出了一个框架，在此框架下，学习智能体可以通过其奖励函数的不同部分自我调节其激励配置。他们的模型基于分层强化学习和元学习的思想，可以学习支持行为策略发展的奖励函数的配置。初步结果表明，通过自我调整各自的团队配置参数，智能体可以实现更好的全局结果。

Apr, 2023

通过多智能体强化学习解构合作与排斥

通过多代理强化学习模拟，我们发现网络重连有助于互相合作，即使一个代理人总是主动提供合作。此外，我们还发现排斥本身不足以促使合作出现，反而是通过合作的学习而出现，并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。

Oct, 2023

强化学习代理的紧急主导层级

现代强化学习算法在各种任务中能够超越人类表现。本文研究了多智能体强化学习环境中的一个基本社会约定：优势等级体系。通过人工智能代理，无需明确编程或内在奖励，我们证明了代理群体能够发明、学习、强化和传播优势等级体系，其结构与鸡、老鼠、鱼类和其他物种的研究相似。

Jan, 2024

正向强化学习的序列多智能体选择中的长期公平性

研究了在多个代理人从共同申请人池中选择的情况下，多代理人公平贪心策略的 long-term fairness 目标集收敛性，并通过合成和适应现实世界数据集提供了实证证据，同时指出在更复杂的申请人池演化模型中，若代理人不协调行动可能会导致负反馈，降低少数群体的申请人比例。

Jul, 2024