未知独立链$n$-人随机博弈中纳什均衡策略的可扩展与独立学习
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的Q-learning类型算法,该算法使用一系列经过熵正则化的软策略来近似Q函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的Q函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。
Sep, 2020
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为O(1/epsilon^5)的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
该论文提出了一种多智能体强化学习动态模型,分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行,重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。
May, 2022
研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念,并提出了两种算法,一种是针对精确伪梯度的,另一种是针对未知伪梯度的。
Oct, 2022
通过利用Tsallis熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了Tsallis熵的新特性,这些特性具有独立的研究价值。
Dec, 2023
本文介绍了一个针对约束马尔可夫博弈的独立策略梯度算法,利用近端点更新和正则化约束集来求解近似的约束纳什均衡,具备独立实现、分布式更新和收敛性保证的特点。
Feb, 2024
本文解决了多智能体强化学习中马尔可夫潜在博弈(MPGs)的大规模学习问题,尤其是在相同利益设置下的纳什均衡学习。提出的独立策略镜像下降算法(PMD)通过KL正则化,实现了迭代复杂度对智能体数量的依赖降低到$\sqrt{N}$,显著优于以往研究,实现了在大规模智能体系统中的高效学习。
Aug, 2024
本文研究了两人零和矩阵博弈和随机博弈,通过收益驱动的学习动态实现了收敛且对称的学习过程。我们首次进行了有限样本分析,结果表明在矩阵博弈中找到纳什分布的样本复杂度为$O(\epsilon^{-1})$,而找到纳什均衡的样本复杂度为$O(\epsilon^{-8})$,具有重要的理论和实践意义。
Sep, 2024
本研究解决了两玩家零和矩阵和随机博弈中的学习动力学问题,提出了一种基于收益的收敛性学习方法。该方法首次提供了具有最后迭代收敛保证的有限样本分析,发现矩阵博弈寻找纳什分布的样本复杂度为$O(\epsilon^{-1})$,而寻求纳什均衡的复杂度为$O(\epsilon^{-8})$。此工作为随机近似算法的收敛行为提供了新的视角。
Sep, 2024