个体性的出现

Jun, 2020

The Emergence of Individuality in Multi-Agent Reinforcement Learning

Jiechuan Jiang, Zongqing Lu

TL;DR本文提出了一种基于强化学习的多智体合作算法，特别着重于个体化。这种算法学习一个概率分类器来预测代理人身份，从而赋予每个代理人固有的动机，鼓励代理人访问自己熟悉的观测，促进个体性的出现，并在多种多智体协同情景中显著优于现有方法。

Abstract

individuality is essential in human society, which induces the division of labor and thus improves the efficiency and productivity. Similarly, it should also be the key to multi-agent cooperation. Inspired by tha

发现论文，激发创造

社交影响：多智能体深度强化学习的内在动机

提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制，通过使用反事实推理来评估因果影响，结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强，同时增加了深度强化学习代理的学习曲线，并且在学习沟通协议方面也更有意义。

Oct, 2018

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准RL和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。

Jun, 2021

具有好奇心驱动探索的情节式多智能体强化学习

本篇论文提出了Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在StarCraft II 微型管理基准测试中，我们的方法显著优于现有情况下的MARL基线。

Nov, 2021

异质代理镜像学习：协作多智能体强化学习的一系列解决方案

本文介绍了一种名为异构代理镜像学习（HAML）的新型框架，该框架提供了一种通用的MARL算法设计模板，解决了在奖励单调性或收敛时的非最优性能问题，通过证明来自HAML模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性，并通过在星际争霸II和多智能体MuJoCo任务中验证了HAML的实用性。

Aug, 2022

ELIGN：基于多智能体内在奖励的期望对齐

该研究探讨在分散型训练或稀疏奖励的情况下，提出了一种自我监督的本质奖励 ELIGN - 期望对齐 - 以及其在多智能体协调问题上的有效性。通过期望对齐代理能够学习到协作行为并且可以进行零次协调，这比基于好奇心的探索方法更加可行。

Oct, 2022

通过相互帮助促进多智体强化学习中的合作

本研究提出一种基于互助的多智能体强化学习算法(MH-MARL)，通过利用预期动作模块来促进代理之间的相互帮助，以提高在合作任务中的性能表现。通过实验结果表明，MH-MARL在成功率和累积奖励方面都提高了MARL的性能。

Feb, 2023

在多智能体环境中独立地从因果关系中学习

通过从因果关系的角度研究，本文探讨了多智能体强化学习中的懒惰代理问题，并将其与因果关系领域建立联系，通过实验证明个体观察与团队奖励之间存在因果关系，进一步提高多智能体强化学习中独立代理的性能和智能行为。

Nov, 2023

高效量化合作 MARL 中个体代理的重要性

合作多智能体强化学习中个体代理的贡献度一直是一项具有挑战性的任务，而本文提出的Agent Importance方法通过计算个体代理的贡献度，其计算复杂度相对于代理数量呈线性增长，能够有效代替耗时的Shapley values方法。实证结果表明Agent Importance与真实的Shapley values及底层个体代理奖励具有较强相关性，并且可用于诊断多智能体强化学习系统中的算法失败情况，从而作为未来强化学习基准测试的一个有价值的可解释性组成部分。

Dec, 2023