通过奖励最弱成员激励合作
构建一个条件纯合作的智能体来解决社会困境问题,使用强化学习技术,仅仅基于结果而非意图,可以构建出好的策略,在真实社会困境中有效,并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。
Oct, 2017
本文提出了在多个智能体环境中,为每个RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准RL和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
通过一种强化学习的简单模型,研究发现使用声誉机制可以解决一些协作难题,但是声誉机制本身也会生成两个协调问题,为了缓解这个问题,可以采用固定代理人和内在奖励相结合等简单机制。
Feb, 2021
本研究提出了一种使用对等激励机制指导智能体协调、从而实现更符合社会期望的 Nash 均衡的方法,实验发现,使用此方法可以增加博弈模型收敛到期望均衡的概率。
May, 2021
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
Oct, 2021
本文提出了 Evolutionary Multi-Agent Reinforcement Learning (EMARL) 作为集群任务中的一种混合算法,将合作与竞争相结合并通过 boids 模型对聚群任务的智能体的奖励进行设计。同时,对于竞争,高适应性的智能体被设计为高级别智能体,低适应性的智能体被设计为初级智能体,让初级智能体随机继承高级智能体的参数。
Sep, 2022
在多智能体团队中使用混合激励机制具有优势,作者们提出了一个框架,在此框架下,学习智能体可以通过其奖励函数的不同部分自我调节其激励配置。他们的模型基于分层强化学习和元学习的思想,可以学习支持行为策略发展的奖励函数的配置。初步结果表明,通过自我调整各自的团队配置参数,智能体可以实现更好的全局结果。
Apr, 2023
通过多代理强化学习模拟,我们发现网络重连有助于互相合作,即使一个代理人总是主动提供合作。此外,我们还发现排斥本身不足以促使合作出现,反而是通过合作的学习而出现,并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。
Oct, 2023
现代强化学习算法在各种任务中能够超越人类表现。本文研究了多智能体强化学习环境中的一个基本社会约定:优势等级体系。通过人工智能代理,无需明确编程或内在奖励,我们证明了代理群体能够发明、学习、强化和传播优势等级体系,其结构与鸡、老鼠、鱼类和其他物种的研究相似。
Jan, 2024
研究了在多个代理人从共同申请人池中选择的情况下,多代理人公平贪心策略的 long-term fairness 目标集收敛性,并通过合成和适应现实世界数据集提供了实证证据,同时指出在更复杂的申请人池演化模型中,若代理人不协调行动可能会导致负反馈,降低少数群体的申请人比例。
Jul, 2024