非凹博弈中可解的局部均衡
本文提出了一种名为local symplectic surgery的算法,用于在二人零和博弈中寻找局部纳什均衡,并在两个数值案例中验证其有效性。
Jan, 2019
本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级(局部)收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
本文研究了no-regret动力学中最常被考虑的动态系统之一 - Follow-the-regularized-leader的行为,证明了非严格的纳什均衡对于no-regret学习是不稳定的且不能吸引该动态系统的稳定状态,因此只有严格的纳什均衡是no-regret动力学的稳定限制点。
Oct, 2020
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
提出了新的技术,将DFG的技术用于解决内部遗憾和交换遗憾,从而使得多人游戏中的学习动态能够收敛到近似相关均衡,同时分析了Blum和Mansour算法中的近似最优遗憾保证。
Nov, 2021
对于对称策略空间中的本地最优对称策略,该研究证明任何局部最优对称策略都是(全局)纳什均衡,这个结果适用于机器学习,并为找到对称策略空间中的局部最优的梯度方法提供全局性保证,最后,总结了研究结果在多智能体RL,合作逆RL和分散式 POMDPs中的应用。
Jul, 2022
本文研究多人随机博弈中同时学习的问题,通过生成算法获得相关均衡,包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium,并提供了一些能够多项式时间内解决的特殊情况。
Oct, 2022
通过研究正则化的无悔学习方法在有限游戏中的长期行为,我们发现玩家的实际策略如何随时间演变的理解非常有限,同时发现只有严格纳什均衡是稳定吸引的,进而揭示了玩家的日常对策的集合有理性的特性。我们进一步刻画了相应集合的稳定和收敛速率,并表明基于熵正则化的方法以几何速度收敛,而基于投影的方法在有限次迭代内收敛,即使是在带有被动反馈的并发奖励的情况下。
Nov, 2023
使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于O(T^-1)粗糙相关均衡。
Feb, 2024
本研究探讨了在正规形式博弈中,缩小后悔的迭代次数以达到相关均衡(CE)的问题。作者提出了现有学习算法(如乘法权重更新)接近最优的证据,并证明了计算均匀混合的T个产品分布的CE的下界,这些结果为基于算法的后悔最小化方案提供了重要限制,可能影响相关算法的设计与优化。
Nov, 2024