在零和游戏中发现局部纳什均衡(仅限局部纳什均衡)
通过利用 Tsallis 熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了 Tsallis 熵的新特性,这些特性具有独立的研究价值。
Dec, 2023
本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级 (局部) 收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
研究了两个玩家的零和博弈下去中心化学习问题,提出了一种名为 Homotopy-PO 的元算法,通过交替使用本地快速算法和全局缓慢算法,使得机器人之间的政策收敛到了较稳健的纳什均衡状态,同时深入分析了算法的收敛性和性能。
Mar, 2023
研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性,开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果,是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。
May, 2019
对于对称策略空间中的本地最优对称策略,该研究证明任何局部最优对称策略都是(全局)纳什均衡,这个结果适用于机器学习,并为找到对称策略空间中的局部最优的梯度方法提供全局性保证,最后,总结了研究结果在多智能体 RL,合作逆 RL 和分散式 POMDPs 中的应用。
Jul, 2022
本文提出了一个统一的框架来表征在无限维或有限维的非凸策略空间上进行连续博弈的局部 Nash 平衡,给出了确保策略构成局部 Nash 平衡的本质必要和充分一阶和二阶条件,将满足充分条件的点称为微分 Nash 平衡,进一步提供了一个充分条件(非退化性)来保证微分 Nash 平衡是孤立的,并且表明这样的平衡是结构稳定的。文章用教程示例说明结果,并且突出连续博弈中可能出现的退化。
Nov, 2014
本论文研究两人零和可微分博弈梯度方法的局部纳什均衡,证明了只要 S 为非零偏曲率,且反对称矩阵 A 的特征向量与 S 核的一般位置相关,则达到收敛,重点研究了连续游戏和极大极小博弈中的应用。
May, 2023