多智能体强化学习:理论和算法的选择性概述
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比,WPL不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和NE解,收敛表现优于现有的算法,并且在100个智能体交互中并行收敛。通过对WPL的动力学分析,可以更好地理解该算法的行为,分析WPL的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。
Jan, 2014
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本研究提供了一个笔记,从博弈论的角度全面介绍了现代多代理强化学习技术的基础和最新发展,旨在为即将进入这个快速增长的领域的新研究人员和现有领域专家提供有关目前最先进的MARL技术的自包含评估,并根据最新进展确定新方向。
Nov, 2020
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的Q函数通过局部化的Q网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。
Jun, 2022
本文提出Multi-Agent RLlib (MARLlib),即一套多智能体强化学习算法库,通过使用新型的基于智能体的分布式数据流设计,成功地统一了数十种算法,包括不同类型的独立学习、集中式批判家和价值分解方法,提供了灵活的参数共享策略和多样的环境接口,为解决各种合作、竞争和混合任务问题提供了一站式的解决方案。
Oct, 2022
本文旨在回顾多智能体强化学习的基本方法、应用场景和当前存在的问题,提出未来十年的研究方向。研究重点包括多智能体强化学习的可扩展性、非平稳性、可信性、安全性、鲁棒性、泛化性和伦理约束等方面。另外,人机交互等人文因素是实际应用中必须考虑的问题。
May, 2023
本研究解决了基于人类反馈的多智能体强化学习(MARLHF)的理论和实证基础,特别是从偏好数据集中识别纳什均衡的问题。通过确定单一策略覆盖不足的理论界限,强调了单方面数据集覆盖的重要性,并提出了时间轴上的均方误差正则化和模仿学习等算法技术,以提升实际性能。研究结果为基于偏好的多智能体系统的有效性奠定了基础。
Sep, 2024