自适应学习速率仍无法解决大规模多智能体学习中的混沌问题
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018
多智能体学习在竞争网络游戏中的行为通常在零和游戏的背景下进行研究,其中收敛保证可能会得到。然而,在这个类别之外,学习的行为被知道展现出复杂的行为且收敛不能始终保证。尽管如此,为了完整地了解多智能体学习在竞争环境中的行为,必须放弃零和的假设。因此,我们以此为动机研究 Q-Learning 动力学,这是一种在多智能体学习中探索和利用的流行模型,在竞争网络游戏中的应用。我们确定竞争程度、探索率和网络连接性对 Q-Learning 的收敛性的影响。为了研究通用的竞争游戏,我们使用代理支付之间的相关性对网络游戏进行参数化,并研究从这些参数选择的所有游戏的 Q-Learning 动力学的平均行为。这种统计方法确定了参数选择,使得 Q-Learning 动力学收敛到一个稳定的固定点。与以前的研究不同,我们发现 Q-Learning 的稳定性明显仅依赖于网络连通性而不是智能体的总数量。我们的实验验证了这些发现,并显示在某些网络结构下,智能体的总数量可以增加而不增加不稳定或混乱行为的可能性。
Dec, 2023
多智能体学习在网络游戏中表现出复杂的动态特性,通过研究 Q 学习的动态特性,确定了在任何网络游戏中收敛到唯一均衡的充分条件,并且在适当的网络条件下,可以实现任意数量智能体的稳定学习动态。
Jul, 2023
本论文研究了探索 - 利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一种充分条件,即使动态不收敛,Q 学习动态仍能超过均衡。
Jan, 2023
研究发现,使用某些学习算法在若干个游戏子空间中导致了 Lyapunov 混沌现象,此现象对于游戏中的学习来说是一个重要问题,并且作者提出了一个矩阵支配的概念,设计了一个线性方案来表征使 MWU 在 Bimatrix 游戏空间中几乎处处都是 Lyapunov 混沌的 Bimatrix 游戏集系。
Aug, 2020
对多智能体网络的学习行为进行了详细的瞬态分析,揭示了分布式策略学习能力的有趣结果。结果还建立了自适应网络的学习过程经历了三个明确定义的演化阶段,揭示了网络拓扑结构影响性能的方面并提出了相应的设计程序。
Dec, 2013
我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。 一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系,从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法,另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较,展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性,展示了在处理收敛性和可靠的推广问题时,动力系统视角对多智能体强化学习的普适性。
May, 2024
本研究提出并分析了一种自适应二元平均方案,解决多智能体在延迟和异步性存在情况下的联合在线学习问题,并提供了一个适用于完全去中心化和异步环境中的自适应学习策略及优化方案。
Dec, 2020
研究动态变化的人群中使用学习算法适应变化环境的重复博弈的质量,证明了如果玩家以一种保证低自适应遗憾的方式选择策略,则在许多种类的游戏中,即使变化非常频繁,也可以确保高社会福利,这一点比以前的工作更具现实意义。
May, 2015