零和马尔可夫博弈中政策优化的更快收敛
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比,WPL不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和NE解,收敛表现优于现有的算法,并且在100个智能体交互中并行收敛。通过对WPL的动力学分析,可以更好地理解该算法的行为,分析WPL的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。
Jan, 2014
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的Q-learning类型算法,该算法使用一系列经过熵正则化的软策略来近似Q函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的Q函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。
Sep, 2020
本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中,通过独立学习算法和政策梯度方法,证明了通过双时间尺度规则,两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式,协调过程的均衡计算上。
Jan, 2021
本文提出了一个新算法,能够有效地应用于大量状态空间问题中的多智能体强化学习,以寻找具有低复杂度的多代理贝尔曼-伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。
Jun, 2021
本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为O(1/epsilon^5)的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
本研究提出了一种名为局部策略迭代的算法,可以通过提高智能体之间的合作,最大化长期奖励的平均值,解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。
Nov, 2022
本文提出了一种对于零和马尔可夫游戏的学习策略——lookahead策略,该策略使用简单的naive policy iteration,在计划阶段实现高效的收敛,进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。
Mar, 2023
在这篇论文中,我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法,在单个控制器下收敛到稳定的ε-NE,其收敛速度为O(1/ε^2)次迭代,该框架基于对经典Minty性质的自然推广,我们相信它在Markov游戏之外也有进一步的应用。
Dec, 2023