激光学习环境：用于协调关键多智能体任务的新环境

Apr, 2024

激光学习环境：用于协调关键多智能体任务的新环境

Laser Learning Environment: A new environment for coordination-critical multi-agent tasks

Yannick Molinghen, Raphaël Avalos, Mark Van Achter, Ann Nowé, Tom Lenaerts

TL;DR我们介绍了Laser Learning Environment (LLE)，它是一个协作的多主体强化学习环境，其中协调是中心。在LLE中，代理依靠彼此进行进展（相互依赖性），必须共同采取特定的行动序列才能成功（完美协调），并且完成这些共同行动不会产生任何中间奖励（零激励动态）。这类问题的挑战在于难以摆脱由相互依赖步骤引起的状态空间瓶颈，因为摆脱这些瓶颈没有受到奖励。我们对多个最先进的基于值的MARL算法在LLE上进行测试，并表明它们在协作任务上始终失败，因为它们无法摆脱状态空间瓶颈，尽管它们成功实现了完美协调。我们显示Q-learning的扩展方法，如优先经验回放和n步回报，阻碍了在具有零激励动态的环境中的探索，并发现奇妙的好奇心结合随机网络提取不足以摆脱那些瓶颈。我们展示了解决这个问题的新方法的需求以及LLE作为合作MARL基准的相关性。

Abstract

We introduce the laser learning environment (LLE), a collaborative multi-agent reinforcement learning environment in which coordination is central. In LLE, agents depend on each other to make progress (

发现论文，激发创造

多智能体演员-评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员-评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

多智能体问题空间中的协同驱动学习

本文研究了协调在多智能体强化学习中的作用，并提出了一种定量衡量多智能体系统中的协调性的新方法，进一步讨论了采用此类指标来优化协调智能体策略的重要性，以及其在对手感知强化学习中的含义。

Sep, 2018

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

通过奖励归因分解进行多智能体协作

本文提出了一种名为Collaborative Q-learning (CollaQ)的多智能体协作强化学习算法，它利用Multi-Agent Reward Attribution (MARA) loss进行训练并在StarCraft多智能体挑战中表现出色，尤其支持ad hoc团队玩法。该算法能将每个智能体的Q函数分解为自表达项和交互项，并在无需重新训练/微调的情况下，显著提高SoTA超过30%。

Oct, 2020

作为终身学习现实场景的持续协调

本研究提出了一个基于Hanabi的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Mar, 2021

改进分散式多智能体强化学习的无模型算法

本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象，提出了一些去中心化的学习算法，并在几个关键的方面上做了优化，同时通过数值仿真验证我们理论的有效性。

Oct, 2021

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的Q函数通过局部化的Q网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。

Jun, 2022

MAESTRO: 多智能体强化学习的开放环境设计

本文提出了Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO)算法，该算法在多智能体环境中使用Unsupervised Environment Design (UED)生成敌对性的联合任务集，MAESTRO在竞争性的两人游戏中，跨离散和连续控制环境优于其他基线方法，并在Nash均衡点上获得了最小化后悔的保证。

Mar, 2023

混合 Q- 函数：用于连续动作领域的合作 MARL 中推进基于价值的方法

本文提出了一种新的多智能体价值算法，混合Q-函数（MQF），通过同时评估多种动作，改善了多智能体连续领域中基于价值的方法，促进了智能体之间的合作，并在六个合作多智能体场景中实证发现MQF通过快速动作评估和增加样本效率优于四个变种的深度确定性策略梯度算法。

Feb, 2024

MESA：基于状态动作空间结构的多智能体学习中的合作元探索

MESA 是一种新颖的元探索方法，通过从训练任务中识别代理的高奖励联合状态-动作子空间，然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明，通过学习到的探索策略，MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能，并具备在测试时泛化到更复杂任务的能力。

May, 2024