使用梯度下降法的粒子动态法可以在高维度的情况下找到两个玩家零和持续游戏中的混合纳什均衡,该方法对于训练对抗生成网络的混合模型是有效的。
Feb, 2020
研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念,并提出了两种算法,一种是针对精确伪梯度的,另一种是针对未知伪梯度的。
Oct, 2022
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级 (局部) 收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
通过 Lyapunov 法证明了在 momentum 策略下的 fully connected neural networks 的 heavy ball method 对应的二阶梯度下降算法在平均场极限下收敛于全局最优解。
Jul, 2020
该研究在连续和离散时间设置下,针对正则化的目标函数给出了关于均值场 Langevin 动力学的简洁、自包含的收敛速率分析。作者证明了命题的关键在于该理论的复合推广的 Gibbs 分布。作者发现该分布与经验风险最小化中的对偶间隙存在关联,这可能使算法收敛的经验评估更加有效。
Jan, 2022
本研究通过对二人博弈中多智能体学习策略的分析,提出了一个令人惊讶的结论 —— 不论策略是否收敛,智能体的平均收益都会收敛于纳什均衡,在电子商务和拍卖中具有一定的适用性。
Jan, 2013
本论文研究了探索 - 利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一种充分条件,即使动态不收敛,Q 学习动态仍能超过均衡。
Jan, 2023
本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型,并使用动态系统理论对其进行了分析,对于有限和无限游戏,我们表征了一组非常小的局部纳什均衡,这组均衡将被激活,如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性,这可能解释了在零和游戏中,应用相关算法时出现的困难。最后,为了验证理论贡献,我们给出了一个示例验证。
Apr, 2018
本文研究一种梯度方案对两个玩家的随机博弈进行求解,并在模拟中显示该方案确实收敛到 Nash 均衡解。但如果只在目标函数的全局最小值处才能达到最优解,当渐近接近时仅能到达局部极小值,本文阐明了梯度方案收敛于广义和随机游戏中纳什均衡的重要必要条件。
Jul, 2015