零和马尔可夫博弈中政策优化的更快收敛
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
本文提出了一种对于零和马尔可夫游戏的学习策略 ——lookahead 策略,该策略使用简单的 naive policy iteration,在计划阶段实现高效的收敛,进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。
Mar, 2023
多智能体强化学习中,通过引入自适应约束,我们设计一种基于消除的算法,在低批次复杂度下实现了对马尔可夫博弈的极小后悔,并且证明了匹配上界的批次复杂度下限,进一步地在理解低适应性的多智能体强化学习方面提供了首个一系列结果。
Feb, 2024
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2), 优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本研究提出了一种名为局部策略迭代的算法,可以通过提高智能体之间的合作,最大化长期奖励的平均值,解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。
Nov, 2022
本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象,提出了一些去中心化的学习算法,并在几个关键的方面上做了优化,同时通过数值仿真验证我们理论的有效性。
Oct, 2021
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找 Nash Equilibrium 的能力。与之前的算法相比,WPL 不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和 NE 解,收敛表现优于现有的算法,并且在 100 个智能体交互中并行收敛。通过对 WPL 的动力学分析,可以更好地理解该算法的行为,分析 WPL 的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。
Jan, 2014
本文介绍了一种新一代的多智能体强化学习方法 SPot-AC,可用于处理非零和付结构和连续设置的随机潜在游戏中,证明了该方法能够使独立代理人在多项式时间内学习纳什均衡策略,在 Coordination Navigation 和大规模自私路由游戏等难以解决的任务方面表现出色,并在这些场景中优于 MADDPG 和 COMIX 等前沿方法。
Mar, 2021
该论文提出了一种双重平均方案,其中每个代理迭代地执行平均化,以融合相邻梯度信息和本地奖励信息,解决多智能体强化学习中的政策评估问题,并且实现了分散的凸凹螺旋点问题的快速收敛。
Jun, 2018