通用和随机博弈纳什均衡学习的去中心化策略梯度
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。
Jul, 2019
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的Q-learning类型算法,该算法使用一系列经过熵正则化的软策略来近似Q函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的Q函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。
Sep, 2020
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为O(1/epsilon^5)的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
研究了两个玩家的零和博弈下去中心化学习问题,提出了一种名为Homotopy-PO的元算法,通过交替使用本地快速算法和全局缓慢算法,使得机器人之间的政策收敛到了较稳健的纳什均衡状态,同时深入分析了算法的收敛性和性能。
Mar, 2023
在一种类别的随机博弈中,利用自治的镜面下降算法通过占用测量和置信区间技术提出了一种学习算法,以构建稳定的ε-NE策略集合,并证明了其多项式时间收敛性。
Dec, 2023
通过利用Tsallis熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了Tsallis熵的新特性,这些特性具有独立的研究价值。
Dec, 2023
在这篇论文中,我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法,在单个控制器下收敛到稳定的ε-NE,其收敛速度为O(1/ε^2)次迭代,该框架基于对经典Minty性质的自然推广,我们相信它在Markov游戏之外也有进一步的应用。
Dec, 2023
研究马尔可夫潜势博弈在无限时间平均回报准则下,证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点,同时提出了渐进性和底座条件,通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础,并证明了三种算法的收敛性以及具体的时间复杂度,当需要估计策略梯度时,我们提出了一个算法并给出了样本复杂度分析,最后通过模拟研究来验证结果。
Mar, 2024
本研究针对在动态和不确定的社会系统中,多代理间异质效用交互的去中心化学习算法设计与分析存在的空白,提出一种基于马尔可夫近势函数(MNPF)的新方法,以保证算法能够收敛到近似纳什均衡。研究表明,该方法能有效应对多代理系统中的学习收敛问题,并提供新的视角来分析去中心化算法的设计。
Sep, 2024