多智能体 Q 学习动态的渐近收敛与性能
研究了在Boltzmann探索机制下Q-learning在二人博弈中的动态性质,发现存在额外的关键状态,同时结果表明,多个纳什均衡点引起的收敛现象在探索度临界值处可能发生显著变化。
Sep, 2011
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型Q-learning,我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中,Q-learning总是收敛于唯一的量刑-反应均衡(QRE),这是有界理性下游戏的标准解决方案概念,并展示了 Q-learning 在竞争环境中的快速收敛性,而无需任何参数微调,在竞争多代理环境中的均衡选择问题提供了算法所需的保证。
Jun, 2021
该论文提出了一种多智能体强化学习动态模型,分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行,重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。
May, 2022
本文提出了新的高效Q学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计Q函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。
Feb, 2023
多智能体学习在网络游戏中表现出复杂的动态特性,通过研究Q学习的动态特性,确定了在任何网络游戏中收敛到唯一均衡的充分条件,并且在适当的网络条件下,可以实现任意数量智能体的稳定学习动态。
Jul, 2023
这篇研究论文探讨了多智能体强化学习中的非静态挑战,介绍了一种异步变种的分散式 Q 学习算法,并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境,并在不强加协调假设的情况下驯服了非静态挑战。
Aug, 2023
多智能体学习在竞争网络游戏中的行为通常在零和游戏的背景下进行研究,其中收敛保证可能会得到。然而,在这个类别之外,学习的行为被知道展现出复杂的行为且收敛不能始终保证。尽管如此,为了完整地了解多智能体学习在竞争环境中的行为,必须放弃零和的假设。因此,我们以此为动机研究Q-Learning动力学,这是一种在多智能体学习中探索和利用的流行模型,在竞争网络游戏中的应用。我们确定竞争程度、探索率和网络连接性对Q-Learning的收敛性的影响。为了研究通用的竞争游戏,我们使用代理支付之间的相关性对网络游戏进行参数化,并研究从这些参数选择的所有游戏的Q-Learning动力学的平均行为。这种统计方法确定了参数选择,使得Q-Learning动力学收敛到一个稳定的固定点。与以前的研究不同,我们发现Q-Learning的稳定性明显仅依赖于网络连通性而不是智能体的总数量。我们的实验验证了这些发现,并显示在某些网络结构下,智能体的总数量可以增加而不增加不稳定或混乱行为的可能性。
Dec, 2023
本文研究了Q-learning算法(一种经典且广泛应用于强化学习的方法)在游戏中受到复杂对手战略操纵的易感性,并量化了战略上熟练的代理人在了解对手的Q-learning算法的情况下可以如何利用一个天真的Q-learner。为达到这个目的,我们将战略角色的问题定义为一个马尔可夫决策过程(具有涵盖所有可能的Q值的连续状态空间),将Q-learning算法作为基础动态系统。我们还提出了一种基于量化的近似方案来处理连续状态空间,并从理论上和数值上分析了其性能。
Mar, 2024