多智能体强化学习中的记忆和遗忘经验回放

Mar, 2022

多智能体强化学习中的记忆和遗忘经验回放

Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning

Pascal Weber, Daniel Wälchli, Mustafa Zeqiri, Petros Koumoutsakos

TL;DR将 Remember and Forget for Experience Replay（ReF-ER）算法扩展到了多智能体强化学习（MARL）领域，并在 Stanford Intelligent Systems Laboratory（SISL）环境中的对比实验中证明，采用单级前馈神经网络模型实现 ReF-ER MARL 算法，其性能表现优于现有复杂神经网络架构的算法。

Abstract

We present the extension of the remember and forget for experience replay (ReF-ER) algorithm to multi-agent reinforcement learning (MARL). ReF-ER was shown to outperform state of the art algorithms for continuous

multi-agent reinforcement learning remember and forget for experience replay state-value estimator importance weights neural network

发现论文，激发创造

经验回放中的记忆和遗忘

提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提高数据效率和应对算法策略的变化。实验结果表明，ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作，离线策略强化学习性能。

Jul, 2018

从经验回放缓冲生成子目标的多智能体强化学习

本论文提出了一种名为 MASER 的新方法，它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明，与其他最先进的 MARL 算法相比，MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。

Jun, 2022

高回放率赋予样本高效的多智能体强化学习

增加重播比例（或更新至数据比例）可以显著提高多智能体强化学习算法的样本效率。

Apr, 2024

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

连续离线强化学习的离线经验回放

本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题，并进行了实验验证。

May, 2023

合作多智能体强化学习的高效情节记忆利用

通过引入有效的情节记忆利用（EMU）来加速协同多智能体强化学习（MARL），为了减少学习时间并防止局部最优解，EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构，理论支持和实证结果表明 EMU 相比传统的情节控制方法具有更好的性能。

Mar, 2024

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

利用对称先验进行多智体强化学习

本文提出了一个框架，通过整合数据增强和良好设计的一致性损失，利用先前的知识来改善现有的多智能体强化学习方法，该框架适用于大多数现有的多智能体强化学习算法，并在多项具有挑战性的任务上进行了实验验证其有效性，同时在物理多机器人测试平台上证明了该框架的优越性。

Jul, 2023

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017