本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的Deep Q-Networks所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。
Feb, 2017
介绍了一种利用关系前向模型(RFM)来学习多智能体环境变化,预测代理机器的未来行为的算法。在多智能体环境中,这些模型产生可解释的中间表示,并提供对推动代理行为的因素、调节社交互动强度和价值的事件的见解。此外,将 RFM 模块嵌入代理中可导致更快的学习系统。
Sep, 2018
提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制,通过使用反事实推理来评估因果影响,结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强,同时增加了深度强化学习代理的学习曲线,并且在学习沟通协议方面也更有意义。
Oct, 2018
本文提出了一个基于 Composable Team Hierarchies 的生成式模型,通过贝叶斯推理来推断潜在的关系并预测多个智能体在空间随机游戏中的行为,该算法可以迅速恢复智能体之间如何相关的基本模型,算法的推理模式与人类判断非常相似。
Jan, 2019
本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020
本文提出了在多个智能体环境中,为每个RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准RL和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式MarL框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明LToS在社会困境和网络MARL的情景下都优于现有方法。
Dec, 2021
通过多代理强化学习模拟,我们发现网络重连有助于互相合作,即使一个代理人总是主动提供合作。此外,我们还发现排斥本身不足以促使合作出现,反而是通过合作的学习而出现,并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。
Oct, 2023
现代强化学习算法在各种任务中能够超越人类表现。本文研究了多智能体强化学习环境中的一个基本社会约定:优势等级体系。通过人工智能代理,无需明确编程或内在奖励,我们证明了代理群体能够发明、学习、强化和传播优势等级体系,其结构与鸡、老鼠、鱼类和其他物种的研究相似。
Jan, 2024
基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居,并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动,进而导致具有相似策略的智能体聚集,增加网络互惠性和加强群体合作。
May, 2024