正态形式博弈的均衡路径
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比,WPL不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和NE解,收敛表现优于现有的算法,并且在100个智能体交互中并行收敛。通过对WPL的动力学分析,可以更好地理解该算法的行为,分析WPL的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。
Jan, 2014
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型Q-learning,我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中,Q-learning总是收敛于唯一的量刑-反应均衡(QRE),这是有界理性下游戏的标准解决方案概念,并展示了 Q-learning 在竞争环境中的快速收敛性,而无需任何参数微调,在竞争多代理环境中的均衡选择问题提供了算法所需的保证。
Jun, 2021
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
本论文研究了探索-利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一种充分条件,即使动态不收敛,Q 学习动态仍能超过均衡。
Jan, 2023
这篇研究论文探讨了多智能体强化学习中的非静态挑战,介绍了一种异步变种的分散式 Q 学习算法,并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境,并在不强加协调假设的情况下驯服了非静态挑战。
Aug, 2023
本研究解决了现有均值场博弈(MFG)在多智能体强化学习中面临的对称性假设限制问题,提出了一种将任意有限玩家的可能不对称博弈扩展为“诱导MFG”的方法。研究表明,针对新提出的α,β-对称博弈,诱导的MFG的纳什策略可以作为N玩家动态博弈的近似纳什策略,且在特定条件下,学习一个ε-纳什策略的样本复杂度为$\tilde{\mathcal{O}}(\varepsilon^{-6})$,为多智能体系统的学习提供了新的理论支持和实践潜力。
Aug, 2024