共同体多智能体强化学习的参数共享深度确定性策略梯度

Oct, 2017

共同体多智能体强化学习的参数共享深度确定性策略梯度

Parameter Sharing Deep Deterministic Policy Gradient for Cooperative Multi-agent Reinforcement Learning

Xiangxiang Chu, Hangjun Ye

TL;DR本文探讨基于 actor-critic 方法的合作多智能体问题，在局部观察设置下，在神经网络的基础上提出了参数共享确定性策略梯度方法，包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体，该方法在学习速度、内存效率和智能体数量方面具有优势，并能充分利用奖励共享和交换特性。

Abstract

deep reinforcement learning for multi-agent cooperation and competition has been a hot topic recently. This paper focuses on cooperative multi-agent problem based on →

deep reinforcement learning multi-agent cooperation actor-critic methods parameter sharing scalability

发现论文，激发创造

利用选择性参数共享扩展多智体强化学习

该论文提出了一种新颖的方法，通过根据智能体的能力和目标对其进行分区，将参数共享的样本效率与多个独立网络的表征能力相结合，以缩短训练时间并提高最终回报，从而解决多智能体深度强化学习中，参数共享方法在不同环境下对训练速度和收敛效果的影响。

Feb, 2021

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

多智能体强化学习的自适应参数共享

我们提出了一种新颖的参数共享方法，通过将每种类型的代理映射到共享网络中的不同区域，基于它们的身份，形成不同的子网络，从而增加了不同代理之间的策略多样性，而不引入额外的训练参数，通过在多个环境中进行的实验证明，我们的方法表现优于其他参数共享方法。

Dec, 2023

极端嘈杂观测下的多智能体深度强化学习

使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好，相比基线模型具有显著性能提升。

Dec, 2018

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

DiGrad：共享动作的多任务强化学习

本论文提出了一种名为 DiGrad 的新方法，采用微分策略梯度来实现在单个 actor-critic 神经网络中学习多个共享动作的多个任务，在复杂的机器人系统中实现高效的多任务学习，同时在连续动作空间中优于相关方法。

Feb, 2018

网络修剪参数共享的可扩展多智能体深度强化学习

本文提出了一种基于结构剪枝的深度神经网络方法，旨在增加联合策略的表示能力从而在多智能体强化学习中减少共享参数对不同行为任务的性能影响。多项基准测试表明所提方法相比共享参数方法具有显著的提高。

Mar, 2023

3DPG: 网络化多智能体系统的分布式深度确定性策略梯度算法

本论文提出了一种基于分布式深度学习的多智能体 Actor-Critic 学习算法，应用于 Markov 博弈，能够在训练和部署中实现完全分布式，具有一定的实用价值。

Jan, 2022