本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级 (局部) 收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
通过发展更高效和可扩展的算法,使用稀疏迭代方法的行为扰动来解决不完全信息博弈中的纳什均衡问题,从而实现最优均衡,但不排除博弈树中未到达的子树中存在次优策略。 通过使用平滑方法,能够计算出一个近似的 extensive-form 完美均衡,以解决经典的纳什均衡算法中存在的精度问题。
May, 2017
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
本论文研究了如何利用在线学习动态算法来求解具有 Nash 均衡约束的凸凹博弈问题,通过引入乐观学习机制使得该方法求解速度得到了显著提升,同时还证明了在强凸平滑函数的情况下该方法的加速收敛性。
Jul, 2018
在非凸博弈中,通过在线梯度下降和无悔学习等方法可以有效地收敛到具有光滑效用函数的博弈中的局部均衡状态。
Mar, 2024
本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型,并使用动态系统理论对其进行了分析,对于有限和无限游戏,我们表征了一组非常小的局部纳什均衡,这组均衡将被激活,如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性,这可能解释了在零和游戏中,应用相关算法时出现的困难。最后,为了验证理论贡献,我们给出了一个示例验证。
Apr, 2018
研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性,开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果,是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。
通过引入一种随机学习过程 - 阻尼梯度逼近,我们在本文中为具有连续行动集的博弈设计了一种学习过程,它是基于收益的,因此不需要玩家有策略上的认知或关于游戏的知识,我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。
Jun, 2018
该论文提出了一种新颖的方法利用线性规划解决计算均衡的问题,这种方法比以往的算法更高效,并可以用于解决大型的信息不完备博弈,特别是在极限状态下。
Jun, 2020
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准 Markov 博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了 SparseCCE 问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023