多智能体强化学习中吸收状态的使用与误用

AAAINov, 2021

多智能体强化学习中吸收状态的使用与误用

On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning

Andrew Cohen, Ervin Teng, Vincent-Pierre Berges, Ruo-Ping Dong, Hunter Henry...

TL;DR本研究通过在 MARL 方法中使用 attention 而非全连接层以及吸收状态的创新架构，解决了后人学分配问题，在代理创建 / 销毁以及传统多智能体协调任务中都显著优于标准框架。

Abstract

The creation and destruction of agents in cooperative multi-agent reinforcement learning (MARL) is a critically under-explored area of research. Current MARL algorithms often assume that the number of agents within a group remains fixed throughout an experiment. However, in many practical problems, an agent may terminate before their teammates. This early te

multi-agent reinforcement learning posthumous credit assignment absorbing states attention architecture

发现论文，激发创造

结构化状态抽象协作多智能体导航学习

本研究提出了一个神经网络架构，旨在共同学习多个代理参与导航任务中的自适应状态空间抽象和通信协议，从而有效减少探索的状态空间的大小，并达到更好的政策性能。

Jun, 2023

S2RL：在深度多智体强化学习中，我们真的需要感知所有状态吗？

提出一种基于稀疏注意力机制的多智能体强化学习框架（S2RL），通过自注意力机制和稀疏注意力机制分别估算局部效用函数，再结合到中央评论家中的标准联合值函数和辅助联合值函数中，为各种方法提供了通用的升级模块，可以显著提高 StarCraft II 的众多最先进方法的性能

Jun, 2022

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

具有状态不确定性的鲁棒多智能体强化学习

在多智能体强化学习中，本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题，提出鲁棒性的解决方案，并设计了两种算法，RMAQ 和 RMAAC，用于处理高维状态 - 动作空间，在存在状态不确定性下，实验证明这两种算法在多智能体环境中表现出色。

Jul, 2023

如何解决国家对抗性多智能体强化学习？

本文提出了一种新的状态对抗性马尔可夫博弈模型，基于最坏情况下预期状态价值最大的状态强化学习策略，尝试解决现有方法在状态不确定性下的一些问题，同时提出了一种新的鲁棒性算法 RMA3C，并证明了有限状态有限行动空间下稳健代理策略的存在性，实验结果显示出其对于状态扰动的鲁棒性更高。

Dec, 2022

基于平均回报的网络系统可扩展多智能体强化学习

本文提出了一种可伸缩的演员 - 评论家（SAC）方法，可以解决具有本地依赖结构的网络多智能体强化学习（MARL）问题，其复杂度与本地邻域的状态 - 动作空间大小相比，而不是整个网络的规模，其效果取决于智能体在图中的距离，通过利用指数衰减性质，可以获得性能接近最优的局部策略。

Jun, 2020

在多智能体环境中独立地从因果关系中学习

通过从因果关系的角度研究，本文探讨了多智能体强化学习中的懒惰代理问题，并将其与因果关系领域建立联系，通过实验证明个体观察与团队奖励之间存在因果关系，进一步提高多智能体强化学习中独立代理的性能和智能行为。

Nov, 2023