多智能体强化学习:方法、应用、前景和挑战
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文介绍了MARLeME库:一种MARL模型提取库,旨在通过近似符号模型来提高MARL系统的可解释性。符号模型具有高度的可解释性,可检查和更好地理解底层MARL系统和相应的MARL代理,以及替换特别安全和安全关键的所有/一些代理。
Apr, 2020
本研究提供了一个笔记,从博弈论的角度全面介绍了现代多代理强化学习技术的基础和最新发展,旨在为即将进入这个快速增长的领域的新研究人员和现有领域专家提供有关目前最先进的MARL技术的自包含评估,并根据最新进展确定新方向。
Nov, 2020
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域,虽然取得了令人激动的进展,但近期在合作设置方面,它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题,但积极监测该领域的健康状况仍然非常重要。本研究通过扩展之前已发表的评估方法数据库,包含了来自顶级会议的深度多智能体强化学习出版物的元数据,并将从此更新的数据库中提取到的结果与其工作中的趋势进行比较。我们的分析表明,许多性能报告方面令人担忧的趋势仍然存在,包括不报告不确定性量化、未报告所有相关评估细节和算法开发类别的狭窄。值得期望的是,我们观察到SMAC-v1中更困难场景的趋势,如果这一趋势延续到SMAC-v2,将鼓励新颖的算法开发。我们的数据表明,多智能体强化学习社区需要更加积极地面对可复制性,以确保在我们迈向令人激动的新领域时对该领域的信任。
Dec, 2023
离线多智能体强化学习(MARL)是一个备受期待的新兴领域,然而,当前离线MARL研究存在基准和评估协议的不一致性问题,这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究,确认了现有方法测量新算法性能的显著缺陷。其次,通过与这些前人工作的直接比较,我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言,在前人工作中的47个数据集中的35个(约占75%)中,我们达到或超越了当前号称的最优结果。令人惊讶的是,我们的基准方法通常远远优于这些更复杂的算法。最后,我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果,纠正了这些前人工作中的缺陷,并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤,结合可靠的基准和对比结果,可能会大大提高离线MARL的实证科学水平。
Jun, 2024