非传统的多智能体强化学习

May, 2022

Off-Beat Multi-Agent Reinforcement Learning

Wei Qiu, Weixun Wang, Rundong Wang, Bo An, Yujing Hu...

TL;DR提出一种应对 The off-beat actions 下模型自由 MARL 算法的算法框架，并通过一种新的时序奖励重分配方案，利用 LeGEM 建立代理的情节性记忆以提高多智能体协调。结果表明，该算法显着提升了多智能体协调并提高了样本效率。

Abstract

We investigate model-free multi-agent reinforcement learning (MARL) in environments where off-beat actions are prevalent, i.e., all actions have pre-set execution durations. During execution durations, the enviro

model-free multi-agent reinforcement learning off-beat actions episodic memory reward redistribution scheme multi-agent coordination

发现论文，激发创造

离网 MARL: 一个数据集生成框架，具备合作离线多智能体强化学习基线

该研究为填补离线多智能体强化学习（MARL）领域中缺乏标准基准和评估方法的空白，提出了一个名为 OG-MARL 的离线 MARL 数据集和算法框架，包括一套标准评估方案。OG-MARL 的数据集本质上是从在线 MARL 基准中生成的，具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。

Feb, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

合作多智能体强化学习的高效情节记忆利用

通过引入有效的情节记忆利用（EMU）来加速协同多智能体强化学习（MARL），为了减少学习时间并防止局部最优解，EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构，理论支持和实证结果表明 EMU 相比传统的情节控制方法具有更好的性能。

Mar, 2024

基于模型的多智能体强化学习：最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

MARLeME: 多智能体强化学习模型提取库

本文介绍了 MARLeME 库：一种 MARL 模型提取库，旨在通过近似符号模型来提高 MARL 系统的可解释性。符号模型具有高度的可解释性，可检查和更好地理解底层 MARL 系统和相应的 MARL 代理，以及替换特别安全和安全关键的所有 / 一些代理。

Apr, 2020

一项多功能的多智能体强化学习库存管理基准测试

本文介绍了一个名为 MABIM 的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估，并探讨了多益智智能算法在实际行业中的应用。

Jun, 2023

异步多智能体强化学习用于高效实时多机器人协同探索

我们提出了一种异步的多智能体强化学习算法，Asynchronous Coordination Explorer (ACE)，可以在处理机器人探索问题时减少实际探索时间，并通过使用基于 CNN 的策略将遗失的机器人维护在一个团队中。

Jan, 2023

高效的多智能体强化学习规划

多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

May, 2024

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

多智能体强化学习通用的行为处理 (RPM)

本文设计了一个基于自我博弈的新型强化学习方法，称为 RPM，通过在多智能体强化学习中维护一种策略记忆，在训练 MARL 代理时收集多样化的多智能体轨迹，大幅提升了其泛化能力，可在未知的多智能体评估场景中完成任务，且性能平均提升了 402％。

Oct, 2022