FP3O: 多智能体合作中的参数共享灵活性下 Proximal Policy Optimization 的实现

Oct, 2023

FP3O: 多智能体合作中的参数共享灵活性下 Proximal Policy Optimization 的实现

FP3O: Enabling Proximal Policy Optimization in Multi-Agent Cooperation with Parameter-Sharing Versatility

Lang Feng, Dong Xing, Junru Zhang, Gang Pan

TL;DR为了解决现有多智能体 PPO 算法在扩展 PPO 的理论保证到合作多智能体强化学习时的不兼容性问题，本文提出了一种新颖且多功能的多智能体 PPO 算法。该算法基于全流水线范例，通过采用不同的优势函数等效分解建立多个并行优化流水线，成功地更一般地形式化了个体之间的相互关联，使其与各种参数共享类型兼容。我们为策略改进提供了坚实的理论基础，并进一步通过多种近似方法开发了一种实用算法称为 Full-Pipeline PPO（FP3O）。对 Multi-Agent MuJoCo 和 StarCraftII 任务的实证评估表明，FP3O 胜过其他强基准，并在各种参数共享配置上表现出显著的多功能性。

Abstract

Existing multi-agent ppo algorithms lack compatibility with different types of parameter sharing when extending the theoretical guarantee of PPO to cooperative multi-agent reinforcement learning (MARL). In this p

multi-agent ppo cooperative marl parameter sharing full-pipeline paradigm policy improvement

发现论文，激发创造

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

零样本可扩展协作的异构多智能体强化学习

我们提出了一个名为 SHPPO 的新型 MARL 框架，通过将异质性整合到共享参数的 PPO 基础的 MARL 网络中，实现了可扩展性和异构性，并在经典 MARL 环境中展示了优越的零 - shot 可扩展性和对学习潜在表示的可视化带来的团队绩效的洞察。

Apr, 2024

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

P3O: 策略开关式策略优化

这篇论文介绍了一种名为 P3O 的简单算法，它交替运用 on-policy 和 off-policy 更新，使用 behavior policy 和 target policy 之间的有效样本量控制它们之间的距离，以降低强化学习算法的采样复杂度。在 Atari-2600 和 MuJoCo 基准套件上的实验表明，这种算法可以有效地降低现有算法的采样复杂度。

May, 2019

多智能体信任区域策略优化

该研究将信任区域策略优化（TRPO）扩展到多智能体强化学习（MARL）问题，提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO，该算法能够基于本地观察和私人奖励优化分布式策略，实现完全的去中心化和保护隐私。实验表明，MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。

Oct, 2020

异构多机器人强化学习

研究介绍了一种名为 HetGPPO 的新型多智能体强化学习模型，利用图神经网络促进智能体间的通信来优化中介异质性策略，实现了在部分可观测环境下的完全去中心化训练，从而在真实世界中取得了比均质模型更好的鲁棒性。

Jan, 2023

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛

多智能体强化学习中的训练过程耗时，当前研究通过引入集中化函数和周期性参数共享机制，有效加速了训练过程，并在 StarCraft Multi-Agent Challenge 中取得了显著性能提升。

Mar, 2024

多智能体强化学习中的信任区域策略优化

本文介绍了针对到多智能体强化学习 (MARL) 的信任区域方法，并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation 算法的成功应用。

Sep, 2021