多智能体强化学习中奖励共享关系网络作为新兴行为框架

Jul, 2022

多智能体强化学习中奖励共享关系网络作为新兴行为框架

Reward-Sharing Relational Networks in Multi-Agent Reinforcement Learning as a Framework for Emergent Behavior

Hossein Haeri, Reza Ahmadzadeh, Kshitij Jerath

TL;DR本文提出使用奖励分享关系网络 (RSRN) 模拟智能体之间的关系，并探讨这种关系对于群体学习行为的影响，结果表明 RSRN 会对群体的学习行为产生显著的影响，不同关系网络结构下产生不同的集群行为。

Abstract

In this work, we integrate `social' interactions into the MARL setup through a user-defined relational network and examine the effects of agent-agent relations on the rise of emergent behaviors. Leveraging insigh

发现论文，激发创造

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的Deep Q-Networks所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

多智能体学习的关系前向模型

介绍了一种利用关系前向模型（RFM）来学习多智能体环境变化，预测代理机器的未来行为的算法。在多智能体环境中，这些模型产生可解释的中间表示，并提供对推动代理行为的因素、调节社交互动强度和价值的事件的见解。此外，将 RFM 模块嵌入代理中可导致更快的学习系统。

Sep, 2018

社交影响：多智能体深度强化学习的内在动机

提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制，通过使用反事实推理来评估因果影响，结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强，同时增加了深度强化学习代理的学习曲线，并且在学习沟通协议方面也更有意义。

Oct, 2018

心智理论：逆向规划探寻群体行为

本文提出了一个基于 Composable Team Hierarchies 的生成式模型，通过贝叶斯推理来推断潜在的关系并预测多个智能体在空间随机游戏中的行为，该算法可以迅速恢复智能体之间如何相关的基本模型，算法的推理模式与人类判断非常相似。

Jan, 2019

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准RL和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

多智能体强化学习中的合作学习

本文研究了网络多智能体强化学习（MARL）问题，提出了一种分层分散式MarL框架：LToS，它使代理者能够动态地与邻居共享奖励，从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明LToS在社会困境和网络MARL的情景下都优于现有方法。

Dec, 2021

通过多智能体强化学习解构合作与排斥

通过多代理强化学习模拟，我们发现网络重连有助于互相合作，即使一个代理人总是主动提供合作。此外，我们还发现排斥本身不足以促使合作出现，反而是通过合作的学习而出现，并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。

Oct, 2023

强化学习代理的紧急主导层级

现代强化学习算法在各种任务中能够超越人类表现。本文研究了多智能体强化学习环境中的一个基本社会约定：优势等级体系。通过人工智能代理，无需明确编程或内在奖励，我们证明了代理群体能够发明、学习、强化和传播优势等级体系，其结构与鸡、老鼠、鱼类和其他物种的研究相似。

Jan, 2024

通过选择性交互和长期经验增强多智能体强化学习中的合作

基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居，并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动，进而导致具有相似策略的智能体聚集，增加网络互惠性和加强群体合作。

May, 2024