一种策略共鸣方法解决多智能体强化学习中的责任扩散问题
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比,WPL不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和NE解,收敛表现优于现有的算法,并且在100个智能体交互中并行收敛。通过对WPL的动力学分析,可以更好地理解该算法的行为,分析WPL的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。
Jan, 2014
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本研究提出了一种新的元多智能体策略梯度定理,该定理直接考虑到多智能体学习环境中固有的非稳态策略动态,并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中,我们的方法能够在全谱的混合激励、竞争和合作领域中比基线方法更有效地适应学习新的代理。
Oct, 2020
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的Q函数通过局部化的Q网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。
Jun, 2022
本文旨在回顾多智能体强化学习的基本方法、应用场景和当前存在的问题,提出未来十年的研究方向。研究重点包括多智能体强化学习的可扩展性、非平稳性、可信性、安全性、鲁棒性、泛化性和伦理约束等方面。另外,人机交互等人文因素是实际应用中必须考虑的问题。
May, 2023
本文提出了一种基于扩散的离线多智能体模型(DOM2),采用轨迹数据增广方案,可以应对环境变化,达到更好的性能、泛化能力和数据效率。实验结果表明,DOM2在多智能体环境中和shifted environments下都比现有算法表现更好,并拥有更强的数据效率。
Jul, 2023
本研究解决了基于人类反馈的多智能体强化学习(MARLHF)的理论和实证基础,特别是从偏好数据集中识别纳什均衡的问题。通过确定单一策略覆盖不足的理论界限,强调了单方面数据集覆盖的重要性,并提出了时间轴上的均方误差正则化和模仿学习等算法技术,以提升实际性能。研究结果为基于偏好的多智能体系统的有效性奠定了基础。
Sep, 2024