网络零和博弈中的多智能体学习是哈密顿系统
本文研究了一类竞争场景,其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明,尽管代理和游戏共同演化,但其结果仍然遵循一定的规律。同时,针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。
Dec, 2020
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
本文提出了一个几何框架来制定零和博弈中的智能体目标,以构建产生开放式学习的自适应目标序列,从而产生比现有算法更强的智能体集合。我们将 PSRO_rN 应用于两个高度非传递性的资源分配游戏,并发现 PSRO_rN 始终优于现有替代方案。
Jan, 2019
本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型,并使用动态系统理论对其进行了分析,对于有限和无限游戏,我们表征了一组非常小的局部纳什均衡,这组均衡将被激活,如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性,这可能解释了在零和游戏中,应用相关算法时出现的困难。最后,为了验证理论贡献,我们给出了一个示例验证。
Apr, 2018
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
多智能体学习在竞争网络游戏中的行为通常在零和游戏的背景下进行研究,其中收敛保证可能会得到。然而,在这个类别之外,学习的行为被知道展现出复杂的行为且收敛不能始终保证。尽管如此,为了完整地了解多智能体学习在竞争环境中的行为,必须放弃零和的假设。因此,我们以此为动机研究 Q-Learning 动力学,这是一种在多智能体学习中探索和利用的流行模型,在竞争网络游戏中的应用。我们确定竞争程度、探索率和网络连接性对 Q-Learning 的收敛性的影响。为了研究通用的竞争游戏,我们使用代理支付之间的相关性对网络游戏进行参数化,并研究从这些参数选择的所有游戏的 Q-Learning 动力学的平均行为。这种统计方法确定了参数选择,使得 Q-Learning 动力学收敛到一个稳定的固定点。与以前的研究不同,我们发现 Q-Learning 的稳定性明显仅依赖于网络连通性而不是智能体的总数量。我们的实验验证了这些发现,并显示在某些网络结构下,智能体的总数量可以增加而不增加不稳定或混乱行为的可能性。
Dec, 2023
多智能体学习在网络游戏中表现出复杂的动态特性,通过研究 Q 学习的动态特性,确定了在任何网络游戏中收敛到唯一均衡的充分条件,并且在适当的网络条件下,可以实现任意数量智能体的稳定学习动态。
Jul, 2023
我们研究了一类新的马尔可夫博弈模型,即具有网络可分离相互作用的多人零和马尔可夫博弈,用于建模非合作多智体序贯决策中的局部交互结构。我们提出了多人零和马尔可夫博弈的必要和充分条件,并证明了在这些博弈中,马尔可夫粗相关均衡集合等同于马尔可夫纳什均衡集合。此外,我们提出了一种模拟正规形式博弈中的经典学习动态的方法,并在星形网络结构下证明了收敛性保证。最后,针对计算马尔可夫非稳态纳什均衡的难题,我们提供了一系列基于值迭代的算法,并通过数值实验验证了我们的理论结果。
Jul, 2023
通过利用 Tsallis 熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了 Tsallis 熵的新特性,这些特性具有独立的研究价值。
Dec, 2023