多智能体学习的稳定性:多人网络博弈中的收敛性
研究了多智能体系统和哈密顿动力学之间的联系,无论网络结构、复杂性以及使用的算法,都可以将零和网络博弈中的收敛动态映射到哈密顿动力学中。此外,该方法可以将在线优化,凸分析,博弈论和物理学之间的结果和方法进行互相转化。
Mar, 2019
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型Q-learning,我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中,Q-learning总是收敛于唯一的量刑-反应均衡(QRE),这是有界理性下游戏的标准解决方案概念,并展示了 Q-learning 在竞争环境中的快速收敛性,而无需任何参数微调,在竞争多代理环境中的均衡选择问题提供了算法所需的保证。
Jun, 2021
该论文提出了一种多智能体强化学习动态模型,分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行,重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。
May, 2022
本论文研究了探索-利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一种充分条件,即使动态不收敛,Q 学习动态仍能超过均衡。
Jan, 2023
通过研究正则化的无悔学习方法在有限游戏中的长期行为,我们发现玩家的实际策略如何随时间演变的理解非常有限,同时发现只有严格纳什均衡是稳定吸引的,进而揭示了玩家的日常对策的集合有理性的特性。我们进一步刻画了相应集合的稳定和收敛速率,并表明基于熵正则化的方法以几何速度收敛,而基于投影的方法在有限次迭代内收敛,即使是在带有被动反馈的并发奖励的情况下。
Nov, 2023
多智能体学习在竞争网络游戏中的行为通常在零和游戏的背景下进行研究,其中收敛保证可能会得到。然而,在这个类别之外,学习的行为被知道展现出复杂的行为且收敛不能始终保证。尽管如此,为了完整地了解多智能体学习在竞争环境中的行为,必须放弃零和的假设。因此,我们以此为动机研究Q-Learning动力学,这是一种在多智能体学习中探索和利用的流行模型,在竞争网络游戏中的应用。我们确定竞争程度、探索率和网络连接性对Q-Learning的收敛性的影响。为了研究通用的竞争游戏,我们使用代理支付之间的相关性对网络游戏进行参数化,并研究从这些参数选择的所有游戏的Q-Learning动力学的平均行为。这种统计方法确定了参数选择,使得Q-Learning动力学收敛到一个稳定的固定点。与以前的研究不同,我们发现Q-Learning的稳定性明显仅依赖于网络连通性而不是智能体的总数量。我们的实验验证了这些发现,并显示在某些网络结构下,智能体的总数量可以增加而不增加不稳定或混乱行为的可能性。
Dec, 2023