在零和游戏中发现局部纳什均衡(仅限局部纳什均衡)
通过将生成对抗网络明确建模为混合策略有限博弈,该论文提出了一种资源有限Nash均衡解决方案,可通过增加计算资源找到更好的解决方案,证明了该方法比GAN和MGAN产生的解决方案不易被操纵,且与理论预测的NEs非常相似。
Jun, 2018
这篇论文提出了基于梯度的Nikaido-Isoda (GNI)函数,用于解决多人博弈中的Nash equilibrium问题,通过数值实验验证了GNI函数的有效性。
May, 2019
本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级(局部)收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
本论文研究了生成对抗网络在最小极大博弈中存在的纳什均衡问题,提出了一种新的基于近端算子的目标函数来获得用于训练生成网络的近端均衡点,称为近端训练, 并进行了数值实验。
Feb, 2020
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和Nash均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
本文研究如何找到混合纳什均衡来解决均场双人零和博弈问题,提出了基于Wasserstein梯度流的动态和基于Langevin梯度下降的方法,并在不同问题上进行了测试。
Feb, 2022
本研究提出了新的端到端深度强化学习算法,用于学习二人零和马尔可夫博弈,我们的目标不是训练一个代理打败一个固定的对手,而是寻找纳什均衡策略,这些策略甚至不会被敌对对手剥削。我们提出了(a)Nash-DQN算法,将单个DQN的深度学习技术与经典马尔可夫博弈的纳什Q-learning算法相结合,用于解决表格式马尔可夫博弈; (b)Nash-DQN-Exploiter算法,此外采用一个探索指南来指导主代理的探索。我们对表格示例以及各种双人Atari游戏进行实验评估。我们的实证结果表明:(i)Neural Fictitious Self Play和Policy Space Response Oracle等许多现有方法找到的策略可能容易被敌对对手剥削;(ii)我们的算法的输出策略不太容易受到剥削,因此优于现有方法。
Jul, 2022
通过普遍基于谱分析的方法,对Riemann流形上的零和可微博弈问题推广了可微Steckelberg平衡和可微Nash平衡,并给出了算法局部收敛的充分条件。这些算法通过引入随机梯度来扩展,并应用于训练Wasserstein GAN模型,从而提高GAN模型的性能。
May, 2024