注意力多智能体DDPG模型中团队伙伴的动态联合策略建模

Nov, 2018

注意力多智能体DDPG模型中团队伙伴的动态联合策略建模

Modelling the Dynamic Joint Policy of Teammates with Attention Multi-agent DDPG

Hangyu Mao, Zhengchao Zhang, Zhen Xiao, Zhibo Gong

TL;DR本文提出了一种基于注意力机制的多智能体强化学习方法 ATT-MADDPG，通过采用集中式批判者和注意力机制来有效建模团队成员的动态政策，并在基准任务和实际任务中的实验结果证明了其性能优于现有的基于规则和强化学习的方法。

Abstract

Modelling and exploiting teammates' policies in cooperative multi-agent systems have long been an interest and also a big challenge for the reinforcement learning (RL) community. The interest lies in the fact tha

发现论文，激发创造

多智能体演员-评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员-评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

共同体多智能体强化学习的参数共享深度确定性策略梯度

本文探讨基于 actor-critic 方法的合作多智能体问题，在局部观察设置下，在神经网络的基础上提出了参数共享确定性策略梯度方法，包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体，该方法在学习速度、内存效率和智能体数量方面具有优势，并能充分利用奖励共享和交换特性。

Oct, 2017

多智能体强化学习的演员-注意力-评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

极端嘈杂观测下的多智能体深度强化学习

使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好，相比基线模型具有显著性能提升。

Dec, 2018

多智能体系统的深度强化学习: 挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

用于部分可观察环境和有限通信的R-MADDPG

本文介绍了一种使用深度循环多智能体演员-评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

通过学习队友模型实现的分散MCTS

本文提出一种可训练的在线分散式规划算法，基于分散蒙特卡洛树搜索，结合先前的剧集运行学习的队友模型，利用深度学习和卷积神经网络生成精确的策略逼近器，提高了策划性能。此算法支持去中心化在线规划的多代理系统.

Mar, 2020

3DPG: 网络化多智能体系统的分布式深度确定性策略梯度算法

本论文提出了一种基于分布式深度学习的多智能体Actor-Critic学习算法，应用于Markov博弈，能够在训练和部署中实现完全分布式，具有一定的实用价值。

Jan, 2022

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

N代理临时团队合作

在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景，在完全合作的多智能体强化学习中，学习算法控制着场景中的所有智能体，而在特定团队合作中，学习算法通常只控制场景中的单个智能体。然而，在现实世界中，许多合作场景要求更灵活的学习方法。本文提出了N-智能体特定团队合作算法（POAM），用于解决在评估阶段必须与动态变化的不同类型的队友进行交互和合作的智能体问题，并通过学习队友行为的表示来适应各种队友行为。在《星际争霸II》任务的实证评估中，POAM相对于基准方法提高了协作任务的回报，并实现了对未见过队友的分布外泛化。

Apr, 2024