基于模型的多智能体强化学习: 最新进展和前景展望
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本研究提供了一个笔记,从博弈论的角度全面介绍了现代多代理强化学习技术的基础和最新发展,旨在为即将进入这个快速增长的领域的新研究人员和现有领域专家提供有关目前最先进的MARL技术的自包含评估,并根据最新进展确定新方向。
Nov, 2020
本文提出Multi-Agent RLlib (MARLlib),即一套多智能体强化学习算法库,通过使用新型的基于智能体的分布式数据流设计,成功地统一了数十种算法,包括不同类型的独立学习、集中式批判家和价值分解方法,提供了灵活的参数共享策略和多样的环境接口,为解决各种合作、竞争和混合任务问题提供了一站式的解决方案。
Oct, 2022
本文旨在回顾多智能体强化学习的基本方法、应用场景和当前存在的问题,提出未来十年的研究方向。研究重点包括多智能体强化学习的可扩展性、非平稳性、可信性、安全性、鲁棒性、泛化性和伦理约束等方面。另外,人机交互等人文因素是实际应用中必须考虑的问题。
May, 2023
离线多智能体强化学习(MARL)是一个备受期待的新兴领域,然而,当前离线MARL研究存在基准和评估协议的不一致性问题,这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究,确认了现有方法测量新算法性能的显著缺陷。其次,通过与这些前人工作的直接比较,我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言,在前人工作中的47个数据集中的35个(约占75%)中,我们达到或超越了当前号称的最优结果。令人惊讶的是,我们的基准方法通常远远优于这些更复杂的算法。最后,我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果,纠正了这些前人工作中的缺陷,并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤,结合可靠的基准和对比结果,可能会大大提高离线MARL的实证科学水平。
Jun, 2024