MAC-PO: 基于集体优先级优化的多智能体经验回放

Feb, 2023

MAC-PO: 基于集体优先级优化的多智能体经验回放

MAC-PO: Multi-Agent Experience Replay via Collective Priority Optimization

Yongsheng Mei, Hanhan Zhou, Tian Lan, Guru Venkataramani, Peng Wei

TL;DR通过优化采样权重，将优先经验回放应用于多智能体强化学习 (MARL) 中，以最小化策略遗憾并获得更好的优先级方案，提高训练效率并在实验中表现出良好的效果。

Abstract

experience replay is crucial for off-policy reinforcement learning (RL) methods. By remembering and reusing the experiences from past different policies, →

experience replay off-policy multi-agent reinforcement learning prioritized sampling regret minimization

发现论文，激发创造

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

高回放率赋予样本高效的多智能体强化学习

增加重播比例（或更新至数据比例）可以显著提高多智能体强化学习算法的样本效率。

Apr, 2024

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

高效的多智能体强化学习规划

多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

May, 2024

高效的样本有效的多智能体强化学习：优化视角

我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量，即多智能体解耦系数 (MADC)，我们旨在找到基于样本高效学习的最小假设。利用该度量，我们提出了首个统一的算法框架，可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外，我们还展示了与现有工作相比，我们的算法提供了可比较的次线性遗憾。此外，我们的算法结合了一个均衡求解器和一个单一目标优化次程序，用于求解每个确定性联合策略的正则化收益，从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023)，或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程，因此更适合于实证实现。

Oct, 2023

具有优先经验的多车追击的进化认知强化学习

本文提出了一种基于优先体验的进化认知强化学习算法，用于处理多车追逐问题。该算法利用优先级网络对各个智能体的参数进行评估和个性化学习，引入了多样性，以提高协作和任务相关性能。同时，该算法还采用了注意力机制来从复杂的城市交通环境中提取关键特征，并使用进化认知方法自适应地对追逐车辆进行有效分组，进一步提高了追逐效率。

Jun, 2023

直接关注损失调整的优先经验回放

通过并行自注意力网络，直接量化改变的分布程度以准确补偿误差，并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性，多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。

Nov, 2023

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

多智能体强化学习中的记忆和遗忘经验回放

将 Remember and Forget for Experience Replay（ReF-ER）算法扩展到了多智能体强化学习（MARL）领域，并在 Stanford Intelligent Systems Laboratory（SISL）环境中的对比实验中证明，采用单级前馈神经网络模型实现 ReF-ER MARL 算法，其性能表现优于现有复杂神经网络架构的算法。

Mar, 2022

高效深度多智能体强化学习的表示学习

通过辅助学习目标，MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率，并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。

Jun, 2024