通过选择性交互和长期经验增强多智能体强化学习中的合作

IJCAIMay, 2024

通过选择性交互和长期经验增强多智能体强化学习中的合作

Enhancing Cooperation through Selective Interaction and Long-term Experiences in Multi-Agent Reinforcement Learning

Tianyu Ren, Xiao-Jun Zeng

TL;DR基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居，并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动，进而导致具有相似策略的智能体聚集，增加网络互惠性和加强群体合作。

Abstract

The significance of network structures in promoting group cooperation within social dilemmas has been widely recognized. Prior studies attribute this facilitation to the assortment of strategies driven by

network structures group cooperation reinforcement learning spatial interactions strategic assortment

发现论文，激发创造

通过多智能体强化学习解构合作与排斥

通过多代理强化学习模拟，我们发现网络重连有助于互相合作，即使一个代理人总是主动提供合作。此外，我们还发现排斥本身不足以促使合作出现，反而是通过合作的学习而出现，并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。

Oct, 2023

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

使用多智能体强化学习理解世界以解决社会困境

本论文采用多智能体强化学习与世界模型相结合的方法来研究社会困境中智能体的协作行为，并证明通过使用世界模型可以引导智能体实现复杂的协调行为。

May, 2023

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

社交网络结构塑造创新：基于 SAPIENS 的 RL 经验分享

本文在多层问题设置 (WordCraft）中进行实验，测试社交网络结构是否会影响分布式 RL 算法的性能，并发现类人实验表明，动态社交网络内的经验共享达到了具有欺骗性的任务中最高的创新水平。

Jun, 2022

强化学习下的合作和声誉动态

通过一种强化学习的简单模型，研究发现使用声誉机制可以解决一些协作难题，但是声誉机制本身也会生成两个协调问题，为了缓解这个问题，可以采用固定代理人和内在奖励相结合等简单机制。

Feb, 2021