本文研究如何找到混合纳什均衡来解决均场双人零和博弈问题,提出了基于 Wasserstein 梯度流的动态和基于 Langevin 梯度下降的方法,并在不同问题上进行了测试。
Feb, 2022
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
本文提出一种基于零阶优化技术、结合平滑梯度估计器和均衡查找动态的方法来解决没有梯度信息的连续行动博弈问题,采用神经网络建模玩家策略,特别是采用随机策略网络来建模混合策略。实验表明,该方法可以快速找到高质量的近似均衡。此外,研究表明,输入噪声的维度对方法的性能至关重要。这是第一篇在未知任何梯度信息的情况下解决了不受限制的连续行动博弈的研究。
Nov, 2022
本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型,并使用动态系统理论对其进行了分析,对于有限和无限游戏,我们表征了一组非常小的局部纳什均衡,这组均衡将被激活,如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性,这可能解释了在零和游戏中,应用相关算法时出现的困难。最后,为了验证理论贡献,我们给出了一个示例验证。
Apr, 2018
本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级 (局部) 收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
本文研究含有无穷个代理人的部分可观测的均场动态博弈,使用故意使原本的部分可观测随机控制问题变成一个置信度空间上的完全可观测问题的技术,建立了此类游戏模型的纳什均衡存在性,并证明了当代理人足够多时,采用均场均衡策略会形成近似纳什均衡。
May, 2017
本文考虑具有离散状态空间(称为离散平均场博弈)的平均场博弈,并在有限和无限时间范围内分析这些博弈的连续和离散时间。我们证明了在成本和驱动连续的假设下存在均场平衡。此外,我们还研究了在四个环境中 N 人博弈的均衡趋于均值场均衡的情况。
Sep, 2019
本文利用熵正则化方法,通过针对概率测度空间上的混合平衡点问题,采用对称梯度升降法求解 Wasserstein 距离来解决最小化最大问题,并取得全局收敛性。同时,提出 Wasserstein 几何下的凸凹可用于解决相关熵正则化的损失函数。
本研究通过对二人博弈中多智能体学习策略的分析,提出了一个令人惊讶的结论 —— 不论策略是否收敛,智能体的平均收益都会收敛于纳什均衡,在电子商务和拍卖中具有一定的适用性。
Jan, 2013