对称零和博弈中的开放式学习
研究了多智能体系统和哈密顿动力学之间的联系,无论网络结构、复杂性以及使用的算法,都可以将零和网络博弈中的收敛动态映射到哈密顿动力学中。此外,该方法可以将在线优化,凸分析,博弈论和物理学之间的结果和方法进行互相转化。
Mar, 2019
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕(PSRO),并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank,在一些游戏分类中建立了收敛保证,并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明,基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。
Sep, 2019
本文研究了一类竞争场景,其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明,尽管代理和游戏共同演化,但其结果仍然遵循一定的规律。同时,针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。
Dec, 2020
我们研究了在 n 个玩家一般和游戏中寻找均衡的计算方法,特别是适用于复杂的视觉运动技能。我们展示了现有方法在此场景下要么计算上困难,要么在理论上受限。接着,我们介绍了 NeuPL-JPSRO 算法,一种神经人口学习算法,通过技能的迁移学习,并最终收敛于游戏的粗糙相关均衡 (CCE)。我们在一系列 OpenSpiel 游戏中展示了实证的收敛性,并经由精确的游戏求解器严格验证。然后,我们将 NeuPL-JPSRO 应用于复杂领域,在 MuJoCo 控制领域实现了自适应协调和技能迁移。我们的工作表明,收敛于均衡的人口学习可以在规模上和广泛性上实施,为解决异质玩家和混合动机的现实世界游戏铺平了道路。
Jan, 2024
通过分析超过 10,000 条人类象棋比赛记录,本文重点研究了象棋游戏中存在的传递性与非传递性元素,并引入了 JiangJun 算法,这是一种蒙特卡洛树搜索(MCTS)和策略空间响应神谕(PSRO)的创新组合,旨在近似纳什均衡。我们通过一个微信小程序对算法进行了经验评估,在与人类玩家的比赛中取得了 99.41%的胜率,达到大师级水平。量化指标如相对人群表现和可视化结果证实了该算法在克服非传递性方面的有效性。
Aug, 2023
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战,给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标,即获得代理人的总奖励的平等份额。
Jun, 2024
这篇论文介绍了一种应用于实际情境下的框架,用于推断底层博弈参数,其中包括了基于决策理论的行为模型,用于学习复杂博弈中有理智的行为,并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。
Mar, 2019